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内 容 提 要 
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和 数组 ) 或 概念 (例如 第 8 章 介绍 分 支 和 循环 ) 。 下 半 部 分 更 侧重 实践 ， 展 示 了 从 输入 数据 到 发 
布 结果 这 一 标准 的 数据 分 析 流 程 。 

即使 你 没有 任何 编程 基础 ， 也 能 顺利 阅读 本 书 。 
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2011 年 由 布 拉 德 ， 皮特 主演 的 影片 《点 球 成 金 》 描 述 了 一 个 运用 数据 运营 球 队 的 故事 : 一 
位 落魄 的 棒球 队 总 经 理 比 利 ， 比 恩 (Billy Beane) 与 他 的 MBA 助理 拍档 在 球 队 遭 遇 运营 
和 危机 时 ， 利 用 反 传 统 的 数据 分 析 方 法 ， 开 发 出 特有 的 计算 机 程序 分 析 和 选择 球员 、 战 术 及 
其 组 合 ， 使 得 这 只 球 队 从 谷底 反弹 ， 而 且 创下 美国 棒球 史上 的 连 胜 记 录 。 他 们 不 是 只 靠 花 
大 价钱 购买 高 价 球星 ， 而 是 通过 这 种 方法 成 功 地 使 球 队 咸 鱼 翻 生 一 一 “从 没有 一 部 电影 将 
枯燥 的 数据 转化 为 如 此 令 人 愉悦 的 娱乐 体验 ”, 《华尔街 日 报 》 如 此 评价 。 


上 面 只 是 数据 分 析 中 的 一 个 有 趣 的 例子 ， 从 中 也 反映 出 数据 (以 及 大 数据 ) 分 析 已 经 逐渐 
成 为 一 门 越 来 越 受 关注 的 学 问 。 在 中 国 ， 人 们 同样 越 来 越 开始 重视 隐藏 在 数据 背后 的 强大 
逻辑 及 其 商业 和 学 术 价 值 。 在 我 们 的 生活 中 ， 从 “ 双 11” 的 购物 狂欢 ， 身 边 的 饭团 中 出 现 
的 各 种 “股神 ”， 工 作 中 的 项 目 管理 ， 一 直到 家 庭 账目 的 管理 ， 可 以 说 数据 分 析 无 处 不 在 ， 
也 越 来 越 受 到 个 人 和 企业 的 重视 ， 已 经 有 大 量 的 数据 科学 家 在 为 各 大 、 中 、 小 企业 服务 。 


如 何 从 数据 中 得 到 有 趣 和 有 价值 的 东西 ， 本 书 正 是 通 往 这 一 目标 的 桥梁 之 一 。 本 书 详细 介 
绍 的 开源 语言 R 正 日 益 成 熟 并 受到 关注 ， 其 社区 和 影响 力也 越 来 越 大 。 


另外 ， 和 《华尔街 日 报 》 对 以 上 电影 的 评价 类 似 ， 这 本 书 也 将 枯燥 的 数据 和 编程 理论 在 某 种 程 
度 上 转化 为 更 令 人 容易 接受 的 体验 一 一 你 可 以 在 本 书 中 接触 到 奥巴马 与 麦 凯 恩 的 选票 大 战 ， 一 
只 无 辜 的 螃蟹 的 海底 之 旅 ， 廉 应 的 头盖骨 ， 古 英格兰 七 王国 等 演化 过 来 的 例子 。 通 过 这 些 既 有 
趣 又 古怪 的 案例 来 学 习 R 以 及 数据 分 析 ， 难 道 不 会 更 加 刺激 你 的 脑 细胞 从 而 加 深 记 忆 吗 ? 


翻译 的 工作 是 辛苦 的 ， 且 需要 极度 的 耐心 和 细致 ， 非 常 感谢 图 灵 公 司 各 位 老师 对 我 工作 的 
支持 和 细心 的 审 校 。 最 后 也 非常 感谢 我 的 妻子 潘 玮 倩 在 翻译 时 对 我 的 理解 和 支持 。 

作为 译 者 ， 由 于 水 平和 视 墅 有限， 翻译 不 当 和 错误 之 处 再 所 难免 。 欢 迎 大 家 丛 正 ， 并 提出 
宝贵 建议 。 希 望 我 们 所 做 的 工作 能 对 你 有 帮助 。 视 阅读 愉快 ， 学 有 所 成 ! 
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R 是 一 种 编程 语言 ， 也 是 用 于 数据 分 析 和 统计 的 软件 环境 。 它 是 一 个 GNU 项 目 ， 这 意味 
着 它 是 自由 的 开源 软件 。 它 正在 以 指数 级 的 速度 不 断 成 长 一 一 普遍 认为 ， 它 的 用 户 人 数 
可 能 超过 了 100 万 ， 它 有 4000 多 个 由 开发 社区 贡献 的 附件 包 ， 而 且 每 年 以 约 25% 的 速度 
增加 。 在 本 书 创作 之 时 ， 它 在 Tiobe 编程 社区 指数 (Tiobe Programming Community Index) 
的 开发 语言 流行 榜 上 已 排 至 第 24 位 ， 大 致 与 SAS 和 MATLAB 看 齐 。 

















R 广泛 地 应 用 在 每 一 个 需要 统计 或 数据 分 析 的 领域 ， 涵 盖 了 人 金融、 市场 营销 、 医 药 、 基 因 
组 学 、 流 行 病 学 、 社 会 科学 、 教 学 以 及 许多 其 他 较 小 的 领域 。 


大 十 本 书 


因为 R 主要 用 于 统计 分 析 ， 所 以 很 多 关于 R 的 书 都 在 指导 你 如 何 计算 统计 或 模型 数据 集 。 
然而 ， 这 些 书 忽视 了 数据 分 析 应 用 的 实际 情况 。 事 实 上 ， 除 非 你 做 的 是 尖端 研究 ， 否 则 你 
所 用 到 的 统计 技术 往往 只 需 用 于 常规 任务 ， 而 且 你 的 模型 可 能 也 不 大 。 完 整 的 数据 分 析 流 
程 更 像 是 这 样 : 











(1) 取得 一 些 数 据 ， 

(2) 清理 数据 ， 

(3) 探索 和 可 视 化 数据 ; 

(4) 数据 建 模 并 做 出 预测 ， 
(5) 展示 或 发 布 你 的 结果 。 

















当然 ， 每 个 阶段 都 可 能 磁 到 一 些 有 趣 的 问题 ， 以 至 于 你 需要 更 多 的 数据 ， 或 者 要 以 不 同 的 
方式 处 理 现 有 数据 ， 这 会 使 你 的 工作 倒退 一 步 。 工 作 流 是 可 以 迭代 的 ， 但 每 个 步 又 都 不 可 
或 缺 。 


本 书 的 第 一 部 分 会 从 头 开始 教 你 有 R 











你 不 需要 任何 编程 语言 的 经 验 。 实 际 上 ， 虽 然 完全 
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没有 编程 经 验 也 无 妨 ， 但 有 一 些 基 本 的 编程 知识 会 更 好 。 例 如 ， 本 书 介 绍 了 如 何 注释 代 
码 以 及 编写 for 循环 ， 但 没有 作 更 详细 的 解释 。 因 此 ， 如 果 你 想 要 找 本 真正 的 编程 人 门 课 
A, BA Jason R. Briggs SHJ Python for Kids 非常 合适 | 
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本 书 的 第 二 部 分 将 展示 R 语言 的 完整 数据 分 析 流 程 ， 这 里 需要 一 些 基 本 的 统计 知识 。 例 
如 ， 你 应 该 了 解 平均 值 和 标准 差 等 术语 ， 以 及 什么 是 条 形 图 (bar chart), 





本 书 最 后 将 介绍 R 的 一 些 高 级 主题 ， 例 如 面向 对 象 编程 和 包 的 创建 。Garrett Grolem 的 
Data Analysis with R 将 会 在 本 书 的 基础 上 深 入 探讨 数据 分 析 流 程 。 

















一 点 提醒 : 这 不 是 一 本 参考 书 ， 许 多 主题 叙述 得 并 不 详细 。 本 书 旨 在 指导 你 如 何 使 用 R， 
并 提供 练习 的 机 会 。 显 然 ， 我们 没有 那么 多 篇 幅 把 所 有 4000 个 附件 包 都 过 一 过 ， 但 当 读 
完 此 书 ， 你 将 有 能 力 找到 你 所 需要 的 东西 ， 并 知道 如 何 寻 求 帮助 以 应 用 它们 。 


本 书 主要 内 容 


本 书 分 为 上 下 部 分 。 上 半 部 分 则 在 为 你 讲解 R 技术 细节 和 使 用 技巧 。 每 章 都 简要 地 介绍 了 
一 组 不 同 的 数据 类 型 (例如 第 4 童 介绍 向 量 、 和 矩阵 和 数组 ) 或 概念 (例如 第 8 章 介 绍 分 支 
和 循环 )。 

下 半 部 分 会 更 有 意思 : 你 能 看 到 真实 的 数据 分 析 。 每 昔 分 别 介 绍 标准 数据 分 析 流 程 的 一 部 
分 ， 从 输入 数据 到 发 布 结果 。 


第 一 部 分 包括 如 下 内 容 。 





























。 第 1 章 : 如 何 安装 R 以 及 在 哪里 得 到 帮助 。 
章 : 如 何 将 R 作为 一 个 科学 计算 器 使 用 。 
。 第 3 章 : 以 不 同 的 方式 检查 变量 。 
。 第 4 章 : 向 量 、 和 矩阵 和 数组 。 
。 第 5 章 : 列表 和 数据 框 (类 似 电子 表格 的 数据 )。 
。 第 6 章 : 环境 和 函数 。 
。 第 7 章 : 字符 串 和 因子 (用 于 类 别 数 据 ) 。 
。 第 8 章 : 分 支 (if 与 else) 和 基本 的 循环 。 
。 第 9 章 : 使 用 apply 函数 的 高 级 循环 应 用 函数 及 其 变种 。 
。 第 10 章 : 如 何 安 装 和 使 用 附件 包 。 
。 第 11 章 : 日 期 和 时 间 。 





第 二 部 分 的 主题 如 下 。 


。 第 12 章 : 如 何 将 数据 导入 Ro 
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第 13 章 : 清理 和 操作 数据 。 

第 14 章 : 通过 统计 计算 和 绘图 探索 数据 。 
第 15 章 : 如 何 建 模 。 

第 16 章 : 各 种 高 级 编程 技术 。 

第 17 章 : 如 何 为 他 人 打包 。 











最 后 ， 第 三 部 分 的 附录 介绍 一 些 有 用 的 参考 资料 。 


附录 A: 比较 不 同类 型 变量 的 属性 表 。 
附录 B: 可 以 用 R 做 的 其 他 事 。 

附录 C: 每 章 后 测验 题 的 答案 。 

附录 D: 每 章 后 编程 练习 题 的 答案 。 


hey [Aa Hes < 

你 应 该 读 哪 几 章 

如 果 你 从 未 使 用 过 R， 那 么 请 从 第 1 章 开始 逐 章 阅读 。 如 果 你 已 经 有 了 一 些 R 的 经 验 ， 不 
炉 跳 过 第 1 章 ， 快 速 浏 览 关 于 R 语言 的 核心 章节 。 


尽 




















管 章节 间 有 一 些 关 联 ， 但 因为 每 章 都 涉及 一 个 不 同 的 主题 ， 所 以 你 可 以 随机 挑选 感 兴 





的 章节 阅读 。 





最 近 ， 我 与 R For Dummies 的 作者 Andrie de Vries 谈 及 这 个 问题 ， 他 竟然 建议 放弃 此 书 ， 
转 而 阅读 他 的 著作 |! 


本 书 排版 约定 


本 书 中 使 用 以 下 排版 约定 。 





楷体 
表示 新 的 术语 。 


= 
m 
$ 


| 的 代码 示例 ， 以 及 段 内 引用 的 编程 元 素 ， 如 变量 或 函数 名 、 数 据 类 型 、 
(statement) 和 关键 字 。 代 码 块 的 输出 也 使 用 等 宽 字体 ， 前 面 加 上 两 个 


X 
4} 
IN RY 
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* YER 
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qd sie H 
~ \ ah 
$ BIG 


-一 
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4 ae 


显示 将 由 用 户 提供 的 值 (或 由 上 下 文 确定 的 值 ) 替换 的 文本 。 


E 








TE 1: Andrie 的 书 所 涵盖 的 内 容 和 本 书 基本 一 致 ， 且 在 许多 方面 和 本 书 一 样 好 。 如 果 你 也 想 阅 读 它 ， 我 对 此 











表示 欢迎 。 
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Ill 


本 书 中 所 用 代码 的 风格 指南 : http://4dpiecharts.com/r-code-style-guide. 


Va 
wey 


as 此 图 标 表 示 小 技巧 、 建 议 或 一 般 说 明 。 


Ww F 
LS as: 
ED 此 图 标 表示 警告 或 小 心 。 





























目标 、 小 结 、 小 测验 和 练习 

每 章 开 头 列 出 的 目标 会 告诉 你 本 章 的 内 容 概要 ， 结 束 时 的 小 结 会 重 述 已 学 的 知识 点 ， 并 会 
有 个 小 测验 以 确保 你 是 在 集中 精力 地 学 习 (而 不 是 在 看 电视 时 假装 看 书 )。 测 验 答案 可 在 
本 章 内 容 中 找到 (或 见 本 书 的 结尾 部 分 ， 如 果 你 想 偷 看 的 话 )。 每 章 最 后 还 会 有 一 些 练习 ， 
大 多 是 要 求 你 写 一 些 R 的 代码 。 每 个 练习 题 后 面 的 方 括号 中 有 一 个 数字 ， 它 表示 完成 此 题 
所 需 的 大 致 时 间 。 


使 用 代码 


补充 材料 (代码 范例 、 练 习 等 ) 可 以 在 此 下 载 : http://cran.r-project.org/web/packages/learningr. 




















本 书 就 是 要 帮 读 者 解决 实际 问题 的 。 也 许 你 需要 在 自己 的 程序 或 文档 中 用 到 本 书 中 的 代 
码 。 除 非 大 段 大 段 地 使 用 ， 否 则 不 必 与 我 们 联系 取得 授权 。 因 此 ， 用 本 书 中 的 几 段 代码 写 
成 一 个 程序 不 用 向 我 们 申请 许可 。 但 是 销售 或 者 分 发 O'Reilly 图 书 随 附 的 代码 光盘 则 必须 
事先 获得 授权 。 引 用 书 中 的 代码 来 回答 问题 也 无 需 我 们 授权 。 将 大 段 的 示例 代码 整合 到 你 
自己 的 产品 文档 中 则 必须 经 过 许可 。 


使 用 我 们 的 代码 时 ， 和 希望 你 能 标明 它 的 出 处 。 出 处 一 般 要 包含 书 名 、 作 者 、 出 版 商 和 书 
号 ， 例如: Learning R by Richard Cotton (O’Reilly). Copyright 2013 Richard Cotton, 978-1- 
449-35710-8, 



































如 果 还 有 其 他 使 用 代码 的 情形 需要 与 我 们 沟通 ， 可 以 随时 与 我 们 联系 : permissions @ 


oreilly.com, 


Safari? Books Online 
ee> Safari Books Online (www.safaribooksonline.com) 是 应 需 而 
Safa ri 变 的 数字 图 书馆 。 它 同时 以 图 书 和 视频 的 形式 出 版 世界 顶级 
Books Galina: 技术 和 商务 作家 的 专业 作品 。 
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Safari Books Online 是 技术 专家 、 软 件 开 发 人 员 、Web 设计 师 、 商 务 人 士 和 创意 人 士 开 展 
调研 、 解 决 问 题 、 学 习 和 认证 培训 的 第 一 手 资料 。 











对 于 组 织 团 体 、 政 府 机 构 和 个 人 ，Safari Books Online 提供 各 种 产品 组 合 和 灵活 的 定 
价 策略 。 用 户 可 通过 一 个 功能 完备 的 数据 库 检 索 系 统 访问 O'Reilly Media, Prentice 


Hall Professional, Addison-Wesley Professional, Microsoft Press, Sams, Que, Peachpit 





Press, Focal Press, Cisco Press, John Wiley & Sons, Syngress, Morgan Kaufmann, IBM 
Redbooks, Packt, Adobe Press, FT Press. Apress, Manning, New Riders, McGraw-Hill, 
Jones & Bartlett, Course Technology 以 及 其 他 几 十 家 出 版 社 的 上 千 种 图 书 、 培 训 视 频 和 正 
式 出 版 之 前 的 书稿 。 要 了 解 Safari Books Online 的 更 多 信息 ， 我 们 网 上 见 。 


联系 我 们 


请 把 对 本 书 的 评价 和 问题 发 给 出 版 社 。 











美国 : 
O’Reilly Media, Inc. 
1005 Gravenstein Highway North 
Sebastopol, CA 95472 


中 国 : 
北京 市 西城 区 西直门 南大 街 2 号 成 馈 大 厦 C 座 807 室 (100035) 
奥 菜 利 技术 咨询 (北京) ARAT 
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WEEET R 的 编程 之 旅 ! 现在 ， 无 需 紧张 ， 本 章 会 让 你 很 好 地 热身 一 下 。 在 准备 编码 
之 前 ， 我 们 先 谈 谈 及 是 什么 ， 以 及 如 何 安装 并 使 用 它 。 然 后 ， 演 试 写 一 个 程序 ， 并 学 习 如 











何 获得 帮助 。 


1.1 


本 章 目标 


读 完 本 章 后 ， 你 会 了 解 以 下 内 容 : 


。 可 以 用 RR 做 什么 ，; 

。 如 何 安装 R 和 使 用 IDE 工作 ， 
e 写 一 个 简单 的 R 程序 ; 

。 如 何 获 取 R 的 帮助 。 


1.2 


R 有 时 会 以 两 种 不 同 的 面孔 出 现 : R 编程 语言 及 运行 R 程序 的 软件 。 乍 一 看 可 能 会 让 人 难 





R 是 什么 





























以 辨认 ， 不 过 ， 大 多 数 情况 下 都 能 够 通过 上 下 文 ， 清 楚 地 知道 其 中 的 R 指 的 是 什么 。 





R 语言 由 奥克兰 大 学 的 Ross Ihaka Fl Robert Gentleman 在 20 世纪 90 年 代 初 开发 。 它 源 于 
20 世纪 70 年 代 John Chambers 在 贝尔 实验 室 带 头 开发 的 S$ 语言 。R 软件 是 一 个 GNU 项 








目 ， 这 表明 它 是 一 个 重要 的 自由 开源 软件 。 现 在 的 R 语言 和 软件 都 由 一 个 〈 目 前) 20 人 


MR 核心 





团队 (R Core Team) FÈ. 


R 的 历史 可 追溯 到 上 世纪 70 年 代 ， 这 一 点 非常 重要 ， 因 为 它 在 过 去 的 几 十 年 里 不 断 演 化 ， 
仿佛 生命 体 一 般 ， 在 演化 过 程 中 曾 出 现 各 种 奇怪 和 了 矛盾 的 地 方 。 与 之 相 比 ， 微 软 的 NET 
Framework 更 有 一 种 “ 横 空 出 世 ” | 的 感觉 。R 这 种 形式 更 为 自由 (尤其 是 自由 许可 证 ) 的 
好 处 是 ， 如 果 你 不 喜欢 现 有 R 的 做 法 ， 完 全 可 以 重 写 一 个 包 ， 使 它 按照 你 的 想法 去 做 。 现 
在 已 经 有 很 多 人 这 样 做 了 ， 如 今 常见 的 问题 不 是 “我 能 使 用 R 做 到 这 一 点 吗 ”， 而 是 “我 
应 该 用 这 三 种 实现 中 的 哪 一 种 ”。 











R 是 一 种 解释 型 语言 (有 时 也 称 为 脚本 语言 )， 这 意味 着 代码 在 运行 之 前 并 不 需要 编译 。 
作为 一 种 高 级 语言 ，R 旨 在 更 快捷 、 更 强大 地 为 你 分 析 数 据 ， 你 无 需 知道 代码 如 何 运 行 于 
计算 机 底层 这 样 的 细节 。 


R 支持 混合 型 的 编程 范式 。 它 的 核心 是 一 种 命令 式 语言 ( 写 一 个 脚本 来 逐条 执行 计算 命 
令 )， 但 它 也 支持 面向 对 象 编程 (数据 和 函数 都 绑 定 在 类 的 内 部 ) 和 函数 式 编程 (函数 是 
第 一 类 对 象 ， 你 可 以 像 对 待 其 他 任何 变量 一 样 对 待 它们 ， 而 且 也 可 以 递归 调用 它们 )。 这 
种 混合 式 的 编程 风格 意味 着 R 能 拥有 类 似 其 他 语言 的 特性 。 大 括号 意味 着 你 可 以 编写 看 起 
来 像 C 语言 的 命令 式 代码 (但 第 2 章 将 介绍 的 R 的 矢量 特征 会 使 它 只 需要 更 少 的 循环 )。 
如 果 使 用 引用 类 ， 就 可 以 写 出 有 点 像 CH 或 Java 的 面向 对 象 代 码 。 函 数 式 编程 结构 是 受 了 
Lisp 的 启发 (变量 的 作用 域 规则 取 自 Lisp 的 方言 Scheme) ， 不 过 括号 更 少 。 所 有 这 些 其 实 
都 是 在 暗示 R 遵循 Perl 的 理念 Perl ethos (http://bit.ly/14826CF) : 




































































我 们 可 以 用 多 种 方法 来 实现 。 





Larry Wall 


1.3 ZR 


如 果 你 正在 使 用 一 台 Linux 机 器 ， 那 么 很 可 能 你 的 包 管理 器 里 面 已 经 安装 了 R， 是 不 是 
最 新 版 本 则 不 好 说 。 对 于 其 他 人 ， 如 果 想 安装 RR， 必 须 首先 访问 网 站 http://www.r-project. 
org。 不 要 因为 它 的 网 站 ”看 上 去 略微 有 些 古 老 ， 就 怀疑 R 的 质量 。 在 页 面 底部 的 Getting 
Started 窗 体 中 ， 点 击 download R 链接 。 








选择 一 个 离 你 最 近 的 镜像 后 ， 在 页 面 顶 部 的 Download and Install R 窗 体 中 选择 一 个 适合 你 
的 操作 系统 的 链接 。 选 择 之 后 ， 就 会 出 现 一 两 个 链接 ， 然 后 按照 提示 选择 并 开始 下 载 。 


如 果 你 是 一 个 Windows 用 户 并 且 不 喜欢 多 次 点 击 ， 可 以 用 以 下 快捷 方式 下 载 安装 文件 : 
http:/<CRAN MIRROR>/bin/windows/base/release.htm, 














注 1: 精心 设计 的 结果 ? 
注 2: 看 一 下 因特网 档案 馆 的 时 光 回 淹 机 ， 就 会 发 现 它 的 首页 自 2004 年 5 月 之 后 就 没有 太 大 变化 。 
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1.4 选择 一 个 IDE 


在 Windows 3% Mac OS X 下 使 用 R， 会 有 一 个 图 形 用 户 界面 (GUI) 可 用 ， 这 包括 一 个 命 
令 行 解释 器 、 显 示 绘 图 和 帮助 页 面 的 部 分 ， 以 及 一 个 基本 的 文本 编辑 器 。 利 用 这 些 默 认 工 
具 就 完全 可 以 使 用 R， 但 是 为 应 对 更 加 复杂 的 编码 活动 ， 至 少 要 使 用 一 个 更 加 强大 的 文本 
编辑 器 。 有 无 数 的 文本 编辑 器 可 供 选择 ， 如 果 你 已 经 有 一 个 最 喜欢 的 ， 就 看 看 它 是 否 能 使 
R 的 代码 语法 高 亮 。 






































如 果 你 不 是 非 用 某 款 编辑 器 不 可 ， 那 么 建议 你 使 用 集成 开发 环境 CIDE) 以 得 到 最 好 的 体 
验 。 和 单独 使 用 某 个 文本 编辑 器 不 同 的 是 ， 这 样 你 能 得 到 使 用 GUI 时 的 所 有 便利 ， 外 加 一 
个 强大 的 编辑 器 ， 甚 至 还 有 可 能 集成 了 版 本 控制 功能 。 

下 面 将 介绍 五 种 常用 的 IDE (当然 还 有 一 些 建议 )， 还 有 很 多 种 ， 这 里 没有 列 出 ， 你 值得 
花 上 一 些 时 间 ， 从 中 选 出 最 满意 的 那 一 种 ”， 毕 竟 ， 在 接 下 来 的 几 千 个 小 时 中 ， 你 都 会 用 
到 它 。 























1.4.1 Emacs+ESS 


虽然 Emacs 说 它 自己 只 是 一 个 文本 编辑 器 ， 但 过 去 36 年 的 发 展 (还 在 持续 发 展 中 )， 已 
经 让 它 具 备 了 超 多 功能 。 如 果 你 是 一 个 编程 老手 ， 可 能 对 于 是 否 使 用 它 早 已 有 了 自己 的 看 
法 。 粉 丝 对 它 几 乎 无 限 的 可 定制 性 及 原始 的 编辑 能 力 无 比 喜 爱 。 但 有 人 则 抱怨 它 把 事情 乔 
得 过 于 复杂 ， 组 合 键 的 大 量 使 用 会 导致 肌肉 劳损 。 学 习 它 很 有 难度 ， 所 以 做 好 心理 准备 ， 
你 可 能 要 用 一 两 个 月 的 时 间 来 习惯 它 。 它 的 另 一 大 好 处 是 ， 除 了 R 之 外 ， 它 也 适用 于 编写 
其 他 多 种 语言 的 程序 。 最 初 的 Emacs 版 本 〈 像 R 一 样 ) 是 一 个 GNU 项目， 你 可 以 从 这 里 
下 载 : http://www.gnu.org/software/emacs/, 






































另外 一 个 流行 的 分 支 是 XEmacs， 可 以 在 这 里 下 载 : http://www.xemacs.org/。 





ESS (Emacs Speaks Statistics) 是 一 个 能 协助 编写 R 代码 的 Emacs 的 插件 。 其 实 它 也 能 用 
F S-Plus, SAS 及 Stata， 所 以 你 可 以 使 用 你 喜欢 的 任何 软件 包 (选择 R 吧 ) 来 编写 统计 
代码 。ESS 的 作者 中 有 R 的 核心 团队 成 员 ， 所 以 它 能 与 RR 良好 地 集成 。 你 可 以 通过 Emacs 
包 管 理 系统 获得 它 ， 或 者 从 以 下 地 址 下 载 : http://ess.r-project.org/ 。 

















ERAR: 要 用 多 种 语言 编程 ， 想 要 一 个 最 强大 的 编辑 器 ， 而 且 又 不 怕 学 习 困 难 。 





1.4.2 Eclipse/Architect 
Eclipse 是 在 Java 社区 中 广泛 使 用 的 一 种 跨 平 台 IDE, ‘EF Emacs 一 样 强 大 ， 其 插件 系统 
































注 3: 不 必 将 R 的 使 用 方式 限制 为 一 种 。 我 对 IDE 挺 忠诚 ， 可 还 使 用 过 Eclipse+StatET、RStudio、Live-R、 
Tinn-R, Notepad++ FU R GUI。 试 着 找到 适合 你 的 。 
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使 其 高 度 可 定制 化 。 它 学 起 来 相对 容易 ， 但 与 Emacs 可 以 使 用 大 量 键 盘 操作 相 比 ， 它 需要 
更 多 的 鼠标 操作 。 


Architect 是 一 个 面向 R 的 Eclipse 变种 ， 由 统计 咨询 公司 Open Analytics 开发 ， 包 括 用 于 
与 R 整合 的 StatET 插件 ， 以 及 一 个 优 于 R GUI 内 置 的 调试 程序 的 调试 器 。 下 载 地 址 是 : 


http://www.openanalytics.eu/downloads/architect。 























另外 ， 你 也 可 以 先 从 http://eclipse.org 下 载 Eclipse IDE 的 标准 版 本 ， 再 使 用 其 包 管理 器 从 
http://www.walware.de/goto/statet 下 载 StatET 插件 。 





ERAR: 要 用 多 种 语言 编程 又 没有 时 间 学 习 Emacs， 而 且 不 介意 它 的 安装 文件 有 几 百 兆 。 


1.4.3 RStudio 

RStudio IDE 只 能 用 于 R 开发 。 这 意味 着 你 不 能 (方便 地 ) 用 它 来 编写 其 他 语言 的 程序 ， 但 
能 得 到 一 些 R 特有 的 功能 。 例 如 绘画 窗口 比 原来 的 R GUI 要 好 ， 而 且 它 能 提供 发 布 代码 的 
工具 。 它 的 编辑 器 比 Emacs 或 Eclipse 简单 ， 但 基本 够 用 且 更 易 上 手 。 使 用 RStudio 的 好 处 
是 可 以 通过 浏览 器 远程 执行 :你 可 以 先 在 功能 强大 的 服务 器 上 运行 R， 然 后 从 上 网 本 (或 
智能 手机 ) 远程 访问 而 不 会 损失 计算 能 力 。 你 可 以 从 这 里 下 载 它 : http://www.rstudio.org。 











适用 人 群 : 主要 写 R 代码 ， 不 需要 高 级 编辑 功能 ， 希 望 快速 上 手 或 者 能 远程 执行 代码 。 


1.4.4 Revolution-R 


Revolution-R 有 两 种 版 本 : 自由 社区 版 和 企业 付费 版 。 两 者 都 与 之 前 提 过 的 IDE 不 
同 Emacs, Eclipse 和 RStudio 是 纯 图 形 化 的 前 端 ， 可 让 你 使 用 任何 版 本 的 R， 但 
Revolution-R 中 的 R 版 本 是 自己 定制 的 ， 一 般 是 一 个 稳定 版 本 ， 比 最 新 版 本 早 一 到 两 个 版 
本 。 它 还 有 一 些 增强 的 特性 ， 如 支持 大 数据 以 及 一 些 企业 功能 。 可 由 此 下 载 : http://www. 


revolutionanalytics.com/products/revolution-r.php. 























适用 人 群 : 主要 用 R 编写 代码 ， 工 作 与 大 数据 相关 或 想 要 一 份 付费 的 支持 合同 ， 又 或 者 需 
要 一 个 特别 稳定 的 RR 平台 。 


1.4.5 Live-R 

Live-R 算是 一 个 新 秀 ， 截 至 本 书 出 版 时 ， 它 还 只 处 于 邀请 测试 的 beta 阶段 。 它 为 R 提供 
了 一 个 基于 Web 的 IDE， 这 样 能 避免 安装 软件 的 有 麻烦， 而且 它 能 像 RStudio 一 样 提供 远程 
执行 功能 ， 让 你 能 在 一 些 动力 不 足 的 机 器 上 运行 R 计算 。Live-R 的 协作 功能 包括 共享 的 
编辑 器 及 共享 的 代码 发 布 ， 以 及 一 些 基 于 R 的 运行 课件 管理 工具 。 它 的 不 足 之 处 是 ， 并 非 
兼容 所 有 的 RR 扩展 包 ， 目 前 只 限于 大 约 200 个 与 Web 应 用 相 兼 容 的 扩展 。 你 可 由 此 注册 : 
http://live-analytics.com/, 






































ERAR: 主要 使 用 R 编写 代码 ， 不 需要 安装 任何 软件 ， 或 要 讲授 基于 R 的 课程 。 


1.4.6 ”其 他 IDE 和 编辑 器 


你 还 可 以 使 用 很 多 其 他 的 编辑 器 来 编写 及 


代码 。 例 如 : 





e JGR (http://rforge.netJGR， 读 作 “Jaguar”) 是 一 个 基于 Java 的 GUI， 它 的 特点 是 GUI 


有 所 加 强 ; 


e Tinn-R (http://www.sciviews.org/Tinn-R) 是 TINN 编程 器 的 一 个 分 支 ， 甚 扩展 程序 能 帮 


助 你 编写 R 代码 ; 











e SciViews-K (http://www.sciviews.org/SciViews-K)， 由 创建 Tinn-R 的 相同 队伍 开发 ， 是 


一 个 用 于 R 开发 的 Komodo IDE 的 插件 ; 





e Vim-R (http://www.vim.org/scripts/script.php?script_id=2628) 是 一 个 用 于 整合 R 的 Vim 


插件 ， 


e NppToR (http://sourceforge.net/projects/npptor) 是 一 个 Notepad++ 的 R 语言 插件 。 


1.5 你 的 第 一 个 程序 


在 几乎 所 有 的 编程 书籍 中 ， 第 一 个 例子 者 








了 似乎 应 该 是 一 个 输出 “Hello world ! ”的 程序 。 


但 对 RR 来 说 ， 这 很 无 聊 ， 因 为 你 只 需要 在 命令 提示 符 下 输入 “Hello world! ”就 行 了 ， 然 





后 它 就 会 打印 相同 内 容 。 所 以 ， 我 们 还 是 


写 个 简单 的 统计 程序 吧 。 


打开 R 的 GUI 程序 或 你 决定 使 用 的 任何 IDE， 找 到 命令 提示 符 〈 在 代码 编辑 器 窗口 )， 然 





后 键入 : 


mean(1:5) 


按 下 回 车 键 运行 代码 行 ， 你 应 该 会 得 到 答案 3。 你 可 能 已 经 猜 到 了 ， 这 个 代码 是 计算 从 1 
到 5 的 算术 平均 值 。 冒 号 运算 符 “: ”在 本 例 中 会 创建 一 个 从 第 一 个 数字 (1) 到 第 二 个 数 
字 (5) 的 序列 ， 每 个 相隔 为 1。 计 算得 到 的 序列 称 为 一 个 矢量 。mean 是 一 个 函数 〈 计 算 算 
术 平 均值 )， 在 括号 内 的 向 量 被 称 为 函数 的 参数 。 


干 得 好 ! 你 已 经 使 用 R 完成 了 一 个 统计 任务 。 





Va 








: 在 R 的 GUI 和 这 里 提 到 的 大 
4 4， 以 前 的 命令 。 
ASN 


多 数 的 IDE 中 ， 你 可 以 按 向 上 箭头 键 循环 执行 








1.6 如何 从 R 中 获得 帮助 


在 开始 写 R 代码 之 前 ， 最 重要 的 是 要 了 解 如 何 得 到 帮助 。 有 多 种 方法 可 以 得 到 帮助 。 首 
先 ， 如 果 你 想 知 道 某 个 函数 或 数据 集 的 信息 ， 可 以 输入 ?， 后 面 加 上 函数 名 。 如 果 你 想 查 
找 某 个 函数 ， 输 入 两 个 问号 (??)， 后 面 加 上 与 此 函数 相关 的 关键 词 。 对 于 特殊 字符 、 关 键 
字 和 多 个 字 词 的 搜索 需要 加 上 单 引 号 或 双 引 号 。 例 如 : 





























?mean # 打开 mean 函数 的 帮助 页 面 

re # 打开 加 法 操作 的 帮助 页 面 

人 # 打开 if 的 帮助 页 面 ， 用 于 分 支 代码 
??plotting # 搜索 所 有 包含 "plotting" 的 主题 
??"regression model" # 搜 索 所 有 与 regression model 相关 的 主题 








# 符号 表示 注释 。 这 意味 着 R 将 忽略 此 行 的 其 他 部 分 。 使 用 注释 来 为 你 的 代 
。 码 添加 说 明 ， 这 样 就 可 以 使 你 记 起 以 前 做 过 的 事 。 








国 数 help 及 help.search 分 别 等 同 于 ? 及??, 但 是 你 必须 把 你 的 参数 括 在 引号 中 。 以 下 命 
令 与 之 前 的 相当 

help('"mean" ) 

help('"+") 

help("if") 

help.search("plotting") 

help.search("regression model") 


apropos 函数 “能 找到 匹配 其 输入 的 变量 (以 及 函数 )。 如 果 你 能 记 住 部 分 已 创建 的 变量 或 
要 使 用 的 函数 名 ，apropos 就 会 非常 好 用 。 例 如 ， 假 设 你 已 经 创建 了 一 个 变量 a_vector: 





a_vector <- c(1, 3, 6, 10) 
你 可 以 通过 apropos 重新 记 起 这 个 变量 : 


apropos("vector") 


## [1] ".__C__vector" "a_vector" "as.data.frame.vector" 
## [4] "as.vector" "as.vector.factor" "is.vector" 
## [7] "vector" "Vectorize" 














结果 包含 你 刚刚 创建 的 变量 a_vector 以 及 所 有 其 他 包含 vector 字符 串 的 变量 。 在 这 个 例 
子 中 ， 其 他 的 函数 都 是 R 的 内 置 函 数 。 


找到 包含 特定 字符 串 的 变量 固然 是 好 ， 但 你 也 可 以 把 apropos 结合 正则 表达 式 来 更 精确 地 
匹配 。 




















注 4: 拉丁 文 ， 意 为 “一 个 能 搜索 联机 手册 的 UNIX 程序 ”。 











正则 表达 式 是 匹配 字符 串 的 一 个 跨 语 言 的 语法 。 本 书 只 会 稍 作 涉猎 ， 但 是 

。 建 议 你 学 会 使 用 它们 ， 因为 它 能 改变 你 的 生活 。 从 http://www.regular- 

e. info/quickstart.html 开始 ， 然 后 看 看 Michael Fitzgerald 的 
学 习 正则 表达 式 》 吧 。 





ae 
ww 
x 











例如 ，apropos 的 以 下 简单 示例 试图 寻找 所 有 以 z 结 尾 的 变量 ， 或 者 含有 4 到 9 之 间 数 字 
的 所 有 变量 : 








apropos("z$") 


## [1] "alpe_d_huez" "alpe_d_huez" "force tz" "“indexTZ" "SSgompertz" 
## [6] "toeplitz" mez "unz" "with_tz" 


apropos("[4-9]") 


## [1] "._c_s4" "\__T__xmlToS4:XML"  ".parseIs08601" 
## [4] ".SQL92Keywords" " TAOCP1997init" "asS4" 

## [7] "assert is 64 bit os" "assert_is_S4" "base64" 

## [10] "base64Decode" "base64Encode" "blues9" 

## [13] "car90" "enc2utf8" "fixPre1.8" 

## [16] "Harman74.cor" "intToUtf8" "is_64 bit os" 
## [19] "is_S4" "isS4" "seemsS40bject" 
## [22] "state.x77" "to.minutes15" "to.minutes5" 
## [25] "utf8ToInt" "xmlToS4" 





KB BA BAB HEH it AEA SE HI E a BE T e 各 们 的 工作 原理 。 你 可 以 使 用 example 
国 数 查看 它们 。 也 有 一 些 较 长 的 概念 演示 ， 你 可 以 通过 deno 函数 查看 : 





example(plot) 
demo() # 列 出 所 有 演示 


demo( Japanese) 

















R 是 模块 化 的 ， 它 被 分 成 不 同 的 包 《〈 后 面 将 详细 讨论 ) ， 其 中 一 些 包 含 片 段 o. 
是 指导 如 何 使 用 这 些 包 文件 的 短文 档 。 可 以 使 用 browsevignettes 来 浏览 所 有 在 你 村 
的 片段 : 











browseVignettes() 





你 还 可 以 使 用 vignette 函数 访问 一 个 特定 的 片断 (但 如 果 你 的 记性 和 我 一 样 糟 糕 ， 与 其 
试 记 住 某 个 包 和 片断 的 名 称 ， 还 不 如 结合 browseVignettes 和 网 页 搜索 ) : 


i 


vignette("Sweave", package = "utils") 


帮助 搜索 操作 符 ?? 和 browseVignettes 只 会 发 现 那些 你 已 经 安装 了 的 包 里 的 东西 。 如 果 你 
想 查找 “任何 ” 包 ， 可 以 使 用 RSitesearch， 它 会 查询 整个 http://search.r-project.org 网 站 的 
包 。 多 个 单词 组 成 的 短语 必须 用 大 括号 括 上 : 


RSiteSearch("{Bayesian regression}") 
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? ?? 


oy tbs 








学 习 如 何 自我 帮助 非常 重要 。 想 出 一 个 与 你 工作 相关 的 保留 字 ， 
apropos 和 RSiteSearch 搜索 它 吧 。 





然后 尝试 使 








互联 网 上 有 大 量 与 R 相关 的 资源 。 你 可 以 从 以 下 这 些 开始 。 








© R 有 一 些 邮 件 列 表 (http://www.r-project.org/mail.html)， 收 集 了 多 年 来 积累 的 关于 语言 
的 各 种 问题 。 最 起 码 值 得 订阅 通用 列表 R-help. 


e RSeek (http://rseek.org) 是 一 个 RR 的 网 页 搜索 引擎 ， 能 查找 


档 中 的 讨论 和 博客 文章 。 








昌 各 种 函数 、R 邮件 列表 归 


。 R- 博 客 (http://www.r-bloggers.com) 是 R 主 要 的 博客 社区 ， 这 是 关注 R 社区 新 闻 和 小 


技巧 的 最 佳 方式 。 








。 编程 问答 网 站 Stack Overflow (http:/www.stackoverflow.com)， 也 是 一 个 活跃 的 R 社区 ， 
它 提供 了 一 个 可 替代 的 R-help 邮件 列表 。 你 还 可 以 通过 回答 问题 得 到 点 数 和 徽章 | 


了 
还 有 其 他 几 个 软件 可 以 扩展 R 的 功能 。 


安装 其 他 相关 软件 


在 Linux 下 ， 你 的 包 管 理 














来 。 而 在 Windows 环境 下 ， 























与 其 在 互联 网 四 处 查找 ， 你 还 不 如 通过 installer 插件 包 来 


器 应 该 能 够 把 它们 检索 出 


自 





动 安装 这 些 额 外 的 软件 。 这 些 软 件 并 非 必 不 可 少 ， 所 以 你 愿意 的 话 可 以 跳 过 这 一 市 ， 但 起 


码 你 应 该 知道 它们 的 存在 ， 以 备 不 时 之 需 。 如 有 果 你 还 不 能 理 


不 必 担 心 ， 因 为 第 10 章 会 详细 讨论 它们 : 


install.packages("installr") 
library(installr) 
install.RStudio() 
install.Rtools() 
install.git() 


1.8 小结 
© 及 是 一 个 自由 的 开源 数据 分 析 语 言 。 


。 它 也 是 一 个 用 于 运行 在 R 程序 中 的 软件 。 


。 MM http://www.r-project.org PEER. 


# FH 

















vas 





PAE installer 包 
# 装载 installr 包 
# PRs 


fa p> oe 


Pī RStudio IDE 
# 你 需要 Rtools 来 构建 自己 的 包 
#git fÈ 


了 代码 的 版 本 控制 功能 


。 可 以 使 用 任何 文本 编辑 器 写 R 代码 ， 但 也 有 几 个 集成 开发 环境 能 使 开发 更 容易 。 


。 键入 ?加 上 函数 名 字 来 获得 帮助 。 


。 输入 ?? 加 上 字符 串 找 到 有 用 的 功能 ， 或 调用 apropos RIAL. 


。 网 上 有 很 多 R 的 资源 。 


E 解 这 些 安 装 和 装载 包 的 命令 ， 





—h 


.9 知识 测试 : 问题 


问题 1-1 
R 是 哪 种 语言 开源 版 本 ? 
本题 1-2 


说 出 至 少 两 种 R 的 编程 模式 。 





问题 1-3 
用 什么 命令 可 以 创建 一 个 从 数 8 到 27 的 矢量 ? 





问题 1-4 
在 R 中 用 于 搜索 帮助 的 函数 是 哪个 ? 








问题 1-5 
在 互联 网 上 用 于 搜索 R 的 相关 帮助 的 函数 是 哪个 ? 


10 ”知识 测试 : 练习 

练习 1-1 

访问 http:W/www.r-projectorg ， 下 载 并 安装 R。 另 外 ， 下 载 并 安装 1.4.6 节 中 提 到 的 IDE. 
[30] 











练习 1-2 
sd 函数 会 计算 标准 差 。 请 算出 从 数 0 到 100 的 标准 差 。 
提示 : 答案 应 该 是 29.3。[5] 


练习 1-3 
观看 数学 符号 演示 ， 数 学 符号 使 用 demo(pLotmath)。[5] 
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科学 计算 器 


本 质 上 ，R 是 一 个 强大 的 科学 计算 器 ， 因 此 它 有 一 套 相当 全 面 的 内 置 数学 功能 。 本 章 将 介 
绍 算术 运算 符 、 常 用 的 数学 函数 以 及 关系 运算 符 ， 并 告诉 你 如 何 为 变量 赋值 。 


2.1 本 章 目 标 

阅读 本 章 后 ， 你 会 了 解 以 下 内 容 : 

。 如 何 把 R 当成 一 个 科学 计算 器 来 使 用 ， 

。 如 何 给 变量 赋值 并 查看 它 的 值 ， 

。 如 何 使 用 无 限 值 和 缺失 值 (missing value) ; 
。 什么 是 逻辑 向 量 以 及 如 何 操作 它们 。 


数学 运算 符 和 问 量 











22 








运算 符 + 执行 加 法 ， 它 还 有 一 个 特殊 技巧 : 除了 把 两 个 数字 相 加 之 外 ， 还 可 把 两 个 向 量 相 











加 。 向 量 是 数值 的 有 序 集 ， 它 在 统计 学 中 极其 








而 不 仅 是 一 条 数据 。 
在 上 一 章 你 已 经 看 到 ， 








重要 ， 因 为 通常 的 分 析 对 象 是 整个 数据 集 ， 


冒号 运算 符 : 能 创建 一 个 从 某 个 数值 开始 到 另 一 个 数值 结束 的 序 
Fij m c 函数 则 会 把 一 系列 的 值 拼接 起 来 创建 向 量 (这 里 c 是 concatenate 的 第 一 个 字母 ， 


concatenate 是 一 个 拉丁 词 ， 意思 是 “把 所 有 东西 连接 在 一 起 ”)。 
R 中 的 变量 名 是 区 分 大 小 写 的 ， 因 此 下 例 中 我 们 要 留心 一 点 。 大 写 的 Cc 国 数 与 小 写 的 c eK 


11 


数 作用 完全 不 同 : 


1:5 + 6:10 #look, no loops! 

## [1] 7 9111315 

c(1, 3, 6, 10, 15) + €(0, 1, 3, 6, 10) 
## [1] 1 4 9 16 25 








Wa 
S ARAA c 函数 在 R 代码 中 几乎 无 处 不 在 ， 好 好 练习 使 用 它们 吧 。 现 
ae 
ww 














。 在 ， 试 试 创建 你 自己 的 向 量 。 





如 果 要 用 C 或 Fortran 语言 编写 代码 ， 我 们 需要 编写 一 个 循环 语句 来 为 向 量 中 的 每 个 元 素 
执行 加 法 。R 的 向 量化 加 法 操作 符 把 事情 简单 化 了 ， 使 我 们 无 需 使 用 循环 语句 。2.5 节 将 
对 向 量 作 更 多 的 介绍 。 














在 及 中， 向 量化 有 几 种 含义 ， 其 中 最 常见 的 含义 是 : 运算 符 或 函数 能 作用 于 向 量 中 的 每 个 元 
素 ， 而 无 需 显 式 地 编写 循环 语句 (这 种 内 置 的 基于 元 素 的 隐 式 循环 也 远 远 快 于 显 式 地 写 循环 
语句 )。 向 量化 的 第 二 个 含义 是 ， 当 一 个 函数 把 一 个 向 量 作为 输入 时 ， 能 计算 汇总 统计 : 


sum(1:5) 











## [1] 15 

median(1:5) 

## [1] 3 
(SMe PARE, Ae, PAY HBR ASE RAL BST 
时 。sunm 函数 就 是 这 样 ， 不 过 这 非常 特殊 。 而 median 函数 则 不 是 这 样 : 

sum(1, 2, 3, 4, 5) 


## [1] 15 





median(1, 2, 3, 4, 5) # 这 会 抛 出 错误 


## Error: unused arguments (3, 4, 5) 


在 R 中 ,不 只 是 加 号 (+)， 其 他 所 有 算术 运算 符 都 是 向 量化 的 。 下 例 将 演示 减法 、 乘 法 、 
徊 运算 、 两 种 除法 及 余数 。 


c(2, 3, 5, 7, 11, 13) = 2 # 减法 
## [1] 0 1 3 5 911 


-2:2 * -2:2 # 乘法 





注 1: 有 一 些 其 他 的 名 称 冲 突 : filter 和 Filter, find 和 Find, gamma 和 Gamma, nrow/ncol 和 NROW/NCOL。 [Al 
H R 是 一 种 不 断 演进 而 非 一 距 而 就 的 语言 ， 这 是 一 个 令 人 遗憾 的 副作用 。 
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##[1] 41014 





identical(2 ^ 3, 2 xx 3) # 我 们 可 用 ^ 或 ** (OZER RE 
# 尽管 用 ^ 更 加 普遍 

## [1] TRUE 

1:10 / 3 # 浮 点 数 除法 


## [1] 0.3333 0.6667 1.0000 1.3333 1.6667 2.0000 2.3333 2.6667 3.0000 3.3333 

1:10 %/% 3 # 整数 除法 

##[1]0011122233 

1:10 %% 3 # 余数 

##[1]1201201201 
R 还 包含 了 多 种 数学 国 数 。 有 三 角 国 数 (sin, cos, tan, LAM AAD asin, acos 和 
atan)、 对 数 和 指数 (log 和 exp， 以 及 它们 的 变种 Logip 和 expm1， 这 两 个 函数 对 那些 非常 
小 的 x 值 能 更 加 精确 地 计算 Log(1 + x) 和 exp(x - 1) 的 值 )， 以 及 几乎 所 有 其 他 你 能 想到 


的 数学 函数 。 请 参考 下 例 并 加 以 理解 。 请 再 次 注意 ， 所 有 的 函数 都 作用 于 向 量 ， 而 不 仅仅 
是 单个 值 。 

















cos(c(0, pi / 4, pi / 2, pi)) #pi 是 内 置 常数 

## [1] 1.000e+00 7.071e-01 6.123e-17 -1.000e+00 
exp(pi * 1i) + 1 # 欧 拉 公式 

## [1] 0+1.225e-16% 

factorial(7) + factorial(1) - 71 ^ 2 #5041 是 一 个 大 数字 
## [1] 0 

choose(5, 0:5) 


## [1] 1 51010 5 1 





要 比较 整数 值 是 否 相等 请 使 用 == 而 不 是 单个 等 号 =， 因 为 我 们 将 会 看 到 ， 单 个 等 号 男 有 用 
途 。 正 如 算术 运算 符 一 样 ，== 和 其 他 关系 运算 符 都 是 向 量化 的 。 要 检查 是 否 不 相等 ，“ 不 
等 ”运算 符 为 !=。 你 可 能 已 经 猪 到 大 于 和 小 于 号 就 是 > 和 < (如 果 有 可 能 相等 ， 则 使 用 >= 
和 <=)。 以 下 是 儿 个 例子 : 














c(3, 4- 1,1+1+1)==3 # 操作 符 也 是 向 量化 的 
## [1] TRUE TRUE TRUE 


1:3 != 3:1 
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## [1] TRUE FALSE TRUE 

exp(1:5) < 100 

## [1] TRUE TRUE TRUE TRUE FALSE 

(1:5) ^ 2 >= 16 

## [1] FALSE FALSE FALSE TRUE TRUE 
使 用 == 来 比较 非 整 型 变量 可 能 会 带 来 问题 。 到 目前 为 止 。 我 们 处 理 的 所 有 数字 都 是 序 点 
数 。 这 意味 着 ， 对 于 两 个 数 a 和 b 来 说 ， 它 们 可 存储 为 a * 2 ^ b。 由 于 它们 都 以 32 位 存 
储 ， 所 以 只 能 是 一 个 近似 值 。 这 意味 着 舍 入 误差 (rounding error) 会 常常 潜伏 在 你 的 计算 
之 中 ， 你 预期 的 答案 可 能 是 完全 错误 的 。 有 很 多 书 专门 介绍 这 个 主题 ， 由 于 内 容 较 多 ， 这 
里 就 不 过 多 介绍 了 。 这 是 个 常见 的 错误 ，R 中 的 FAQ 上 有 一 个 关于 它 的 条 目 (http://bit. 
ly/17jZFfE)， 便 于 你 深入 了 解 。 








看 以 下 两 个 数字 ， 它 们 应 该 是 相同 的 。 
sqrt(2) ^ 2 == 2 #sqrt 是 函数 的 平方 根 
## [1] FALSE 
sqrt(2) ^2 - 2 # 这 个 微小 的 差 值 就 是 舍 入 误差 
## [1] 4.441e-16 


R 还 提供 了 all.equal 函数 用 于 检查 数字 是 否 相等 。 它 提供 了 一 个 容忍 度 (tolerance level, 
默认 情况 下 为 1.5e-8)， 因 而 那些 小 于 此 容忍 度 的 舍 入 误差 将 被 忽略 : 


all.equal(sqrt(2) ^ 2, 2) 


## [1] TRUE 























如 果 要 比较 的 值 不 一 样 ，all.equal 返回 时 将 报告 其 差 值 。 如 果 你 需要 它们 在 比较 后 返 
的 是 一 个 TRUE 或 FALSE 值 ， 则 应 把 aLL.equat AGRA isTRUE 函数 中 调用 : 











ÉE 








all.equal(sqrt(2) ^ 2, 3) 

## [1] "Mean relative difference: 0.5" 
isTRUE(all.equal(sqrt(2) ^ 2, 3)) 

## [1] FALSE 

va 


as 要 检查 两 个 数字 是 否 一 样 ， 不 要 使 用 ==， 而 使 用 all.equal 函数 。 
~ 
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我 们 也 可 以 使 用 == 来 比较 字符 串 。 在 这 种 情况 下 ， 比 较 会 区 分 大 小 写 ， 所 以 字符 串 必 须 
完全 匹配 。 理 论 上 ， 也 可 以 使 用 大 于 或 小 于 (> 和 <) 来 比较 字符 串 : 





cl 
"Can", "you", "can", "a", "can", "as", 
"a", "canner", "can", "can", "a", "can?" 
) == "can" 


## [1] FALSE FALSE TRUE FALSE TRUE FALSE FALSE FALSE TRUE TRUE FALSE 
## [12] FALSE 


CCA By PO. DY WC 
## [1] TRUE TRUE FALSE FALSE 
dy tae e # 你 的 结果 可 能 有 所 不 同 
## [1] TRUE TRUE TRUE FALSE 
PRTICESEDR HE, JAR CRA RED, EUR ROE PRE ATSC FF 


了 奇怪 的 字母 排序 规则 ， 例 如 在 爱沙尼亚 语 中 ,，“z” 排 在 “s” 和 “t” 之 间 )。13.2 abt 
论 更 强大 的 字符 串 匹 配 功能 。 











Wa 


re 在 帮助 页 面 中 2Arithmetic, ?Trig, ?Special 和 ?Comparison 有 更 多 的 例子 ， 
`a 














。 并 提供 边界 情况 下 的 大 量 处 理 细节 。( 如 有 兴趣 ， 请 试 试 6 ^ 0 或 使 用 整数 
T 除 以 非 整数 。) 








23 变量 赋值 
虽然 计算 很 美妙 ， 但 通常 我 们 要 存储 结果 以 供 重用 。 我 们 可 以 使 用 <- 或 = 给 (本 地 ) 变 
量 赋值 ， 虽 然 由 于 历史 原因 ，<- 是 首选 。 


x <- 1:5 
y = 6:10 


现在 ,我 们 可 以 重新 使 用 这 些 值 进行 下 一 步 计算 : 





X+2*Yy-3 
## [1] 10 13 16 19 22 


请 注意 ， 在 给 变量 x 和 y 赋值 之 前 ， 并 不 需要 声明 它们 (这 和 大 多 数 编译 语言 不 一 样 )。 
事实 上 ， 我 们 不 能 声明 任何 类 型 ， 因 为 在 R 中 不 存在 这 种 概念 。 

















变量 名 可 包含 字母 、 数 字 、 点 和 下 划 线 ， 但 它 不 能 以 数字 或 一 个 点 后 跟 数字 (因为 看 起 来 
太 像 一 个 数字 ) 开头 。 系 统 的 保留 字 也 是 不 允许 的 ， 如 让 和 for。 某 些 语 言 环 境 (locale) 
FEIE ASCI 字母 ， 但 是 为 了 代码 的 可 移植 性 ， 最 好 使 用 以 a 到 z (A BZ) 的 字母 。 
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命名 规则 的 细节 ， 请 参见 帮助 页 面 ?make.names。 


赋值 运算 符 两 边 的 空格 并 不 是 必须 的 ， 但 它们 有 助 于 提高 代码 的 可 读 性 ， 尤 其 是 对 于 <- 
来 说 ， 两 边 的 空格 可 以 轻松 将 它 与 小 于 号 区 分 开 : 

x <- 3 

x < -3 

x<-3 # 这 是 赋值 运算 符 还 是 小 于 号 ? 
我 们 还 可 使 用 <<- 来 对 全 局 变量 赋值 。 对 此 ， 在 6.1 市 谈 到 环境 和 范围 时 会 再 作 深 入 探讨 。 
现在 ， 只 需 把 它 看 做 创建 了 一 个 可 在 任意 地 方 使 用 的 变量 : 
































x <<- exp(exp(1)) 


另 一 个 变量 赋值 的 方法 是 通过 assign 函数 赋值 。 这 种 情况 不 太 常 见 ， 但 在 极 个 别 情况 下 ， 
使 用 函数 语法 来 对 变量 赋值 是 很 有 用 的 。 本 地 的 (“标准 的 ”) 赋值 函 ee 
赋值 的 变量 名 以 及 要 赋予 该 变量 的 值 。 





assign("my_local_variable", 9^ 3 + 10 ^ 3) 


全 局 赋值 (如 <<- 操作 符 一 样 ) 还 需要 加 上 一 个 参数 





assign("my_global_variable", 1 ^ 3 + 12 ^ 3, globalenv()) 


目前 ， 不 用 担心 globalenv 函数 ， 第 6 章 将 作 详 细 的 解释 。 





MEE <- 操作 符 ， 使 用 asstgn 函数 会 使 代码 可 读 性 变 差 ， 因 此 须 谨慎 使 用 。 
一 CE 有时， 在 一 些 涉及 环境 变量 的 高 级 程序 设计 中 ， 它 会 使 事情 变 得 更 简单 。 但 
如 果 你 的 代码 中 到 处 都 是 assign 函数 ， 可 能 就 出 错 了 。 

还 要 注意 的 是 ，asstgn 函数 不 会 检查 第 一 个 参数 是 否 是 一 个 有 效 的 变量 名 ， 
它 只 是 创建 它 。 


请 注意 ， 当 你 对 一 个 变量 赋值 时 ， 不 会 马上 看 到 值 是 多 少 。 要 看 到 变量 包含 的 值 ， 只 需 在 
命令 提示 符 下 键入 其 名 称 即 可 将 其 打印 出 来 。 




















x 
## [1] 12345 
Va 
H 在 某 些 系统 中 ， 例 如 从 一 个 Linux 终端 运行 了 时 ， 可 能 需要 显 式 调用 print 
Wd. REJER ZI, BA printo). 
043, 
如 果 你 想 把 赋值 和 打印 语句 都 写 在 同一 行 ， 有 两 种 选择 。 第 一 ， 把 多 个 语句 放 在 一 行 ， 中 
间 用 分 号 ; 分 开 。 第 二 ， 把 赋值 语句 写 在 括号 O 中 。 在 下 例 中 ，rnorn 函数 生成 正 态 分 布 
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的 随机 数 ， 而 rlnorn 函数 则 生成 对 数 正 态 分 布 的 随机 数 *: 
z <- rnorm(5); z 
## [1] 1.8503 -0.5787 -1.4797 -0.1333 -0.2321 
(zz <- rlnorm(5)) 


## [1] 1.0148 4.2476 0.3574 0.2421 0.3163 


2.4 ”特殊 数字 

为 了 帮助 算术 运算 ，R 支持 四 种 特殊 值 : Inf、-Inf、NaN 和 NA。 显 然 ， 前 两 个 分 别 是 正 负 
无 穷 ， 而 后 两 个 则 需 做 些 解释 。NaN 为 “不 是 一 个 数 ”(not-a-number) 的 缩写 ， 它 意味 着 
我 们 的 计算 或 没有 数学 意义 ， 或 无 法 正确 执行 。NA 是 “不 可 用 ”(not available) 的 缩写 ， 
并 代表 缺失 值 一 一 这 个 问题 在 数据 分 析 中 会 经 常 碰 到 。 在 一 般 情况 下 ， 如 果 我 们 的 计算 涉 
及 一 个 缺失 值 ， 则 结果 也 将 丢失 。 












































c(Inf + 1, Inf - 1, Inf - Inf) 
## [1] Inf Inf NaN 

c(1 / Inf, Inf / 1, Inf / Inf) 
## [1] 0 Inf NaN 

c(sqrt(Inf), sin(Inf)) 

## Warning: NaNs produced 

## [1] Inf NaN 

c(log(Inf), log(Inf, base = Inf)) 
## Warning: NaNs produced 

## [1] Inf NaN 

c(NA + 1, NA * 5, NA + Inf) 


## [1] NA NA NA 


当 算术 中 涉及 NA 和 NaN 时 ， 得 到 的 结果 将 为 这 两 个 值 之 一 ， 取 哪个 值 则 取决 于 所 使 用 的 
系统 : 





c(NA + NA, NaN + NaN, NaN + NA, NA + NaN) 


## [1] NA NaN NaN NA 





注 2: 由 于 数字 是 随机 产生 的 ， 所 以 你 自己 尝试 时 可 能 会 得 到 不 同 的 值 。 
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可 使 用 函数 来 检查 这 些 特殊 值 。 请 注意 ，NaN 和 NA 既 非 有 限 值 亦 非 无 限 值 ，NaN 代表 缺失 
值 ， 而 NA 是 一 个 数字 。 


x <- c(0, Inf, -Inf, NaN, NA) 
is.finite(x) 
## [1] TRUE FALSE FALSE FALSE FALSE 


i 


wm 


. infinite(x) 

## [1] FALSE TRUE TRUE FALSE FALSE 
is.nan(x) 

## [1] FALSE FALSE FALSE TRUE FALSE 
is.na(x) 


## [1] FALSE FALSE FALSE TRUE TRUE 


1 o E 
2.5 ”逻辑 向 量 
除了 数字 以 外 ， 科 学 计算 还 经 常 涉及 逻辑 值 ， 特 别 是 当 使 用 关系 运算 符 (< 等 ) 时 。 许 多 
编程 语言 都 使 用 布尔 逻辑 ， 其 中 的 值 可 为 TRUE 或 FALSE。 在 R 中 ， 情 况 有 点 复杂 ， 因 为 还 
可 能 有 缺失 值 NA。 有 时 ， 这 种 拥有 三 种 状态 的 系统 被 称 为 troolean 逻辑 ， 虽 然 这 可 算是 
一 个 词 源 学 上 的 冷笑 话 ， 因 为 “Boolean” 中 的 “Bool” 源 于 George Bool， 而 与 二 进 制 无 关 。 





TRUE 和 FALSE 是 R 中 的 保留 字 : 你 不 能 创建 以 它们 命名 的 变量 (但 可 使 用 它们 的 小 写 或 大 
小 写 混 合 ， 如 True)。 当 你 启动 了 时 ， 变 量 T 和 上 F 已 被 系统 默认 定义 为 TRUE 和 FALSE。 虽 
然 这 能 让 你 少 打点 字 ， 但 也 会 造成 很 大 的 问题 。T 和 F 不 是 保留 字 ， 因 此 用 户 可 以 重新 定 
义 它们 。 这 意味 着 你 可 以 在 命令 行 中 使 用 它们 的 缩写 名 称 ， 但 如 果 你 的 代码 需要 与 他 人 的 
代码 交互 (特别 是 当 他 们 的 代码 涉及 时 间 、 温 度 或 数学 函数 时 )， 请 避免 使 用 这 两 个 缩写 。 


在 R 中 有 三 个 向 量化 逻辑 运算 符 : 


。 ! 代表 非 操作 
。 & 代表 与 操作 
。 | 代表 或 操作 





(x <- 1:10 >= 5) 
## [1] FALSE FALSE FALSE FALSE TRUE TRUE TRUE TRUE TRUE TRUE 
Ix 


## [1] TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE FALSE FALSE 
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(y <- 1:10 %% 2 == 0) 

## [1] FALSE TRUE FALSE TRUE FALSE TRUE FALSE TRUE FALSE TRUE 
x&y 

## [1] FALSE FALSE FALSE FALSE FALSE TRUE FALSE TRUE FALSE TRUE 
x | y 


## [1] FALSE TRUE FALSE TRUE TRUE TRUE TRUE TRUE TRUE TRUE 





我 们 可 编 出 一 些 真 值 表 来 看 看 它们 是 如 何 工 作 的 请 不 用 管 这 段 代码 是 否 有 意义 ， 只 需 集 
中 精力 去 理解 每 个 值 是 如 何在 真 值 表 中 计算 出 来 的 ) : 











x <- c(TRUE, FALSE, NA) t 三 个 逻辑 值 
xy <- expand.grid(x = x, y = x) # 取 得 x 和 y 的 所 有 组 合 
within( # 在 xy 内 赋值 
Xy， 
{ 
and <- x & y 
or <-x |y 
not.y <- !y 
not.x <- !x 
} 
) 
#H X y not.x not.y or and 
## 1 TRUE TRUE FALSE FALSE TRUE TRUE 
## 2 FALSE TRUE TRUE FALSE TRUE FALSE 
## 3 NA TRUE NA FALSE TRUE NA 
## 4 TRUE FALSE FALSE TRUE TRUE FALSE 
## 5 FALSE FALSE TRUE TRUE FALSE FALSE 
# 6 NA FALSE NA TRUE NA FALSE 
## 7 TRUE NA FALSE NA TRUE NA 
## 8 FALSE NA TRUE NA NA FALSE 
## 9 NA NA NA NA NA NA 





其 他 两 个 比较 有 用 的 处 理 逻 辑 向 量 的 函数 是 any 和 aLL， 如 果 输 入 向 量 中 至 少 包 含 一 个 
TRUE 值 或 只 包含 TRUE 值 ， 它 们 将 分 别 返 回 为 TRUE: 





none_true <- c(FALSE, FALSE, FALSE) 
some_true <- c(FALSE, TRUE, FALSE) 
all_true <- c(TRUE, TRUE, TRUE) 
any(none_true) 

## [1] FALSE 


any(some_true) 


## [1] TRUE 
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any(all_true) 
## [1] TRUE 
all(none_true) 
## [1] FALSE 
all(some_true) 
## [1] FALSE 
all(all_true) 


## [1] TRUE 


2.6 小结 


。 R 可 用 作 一 个 非常 强大 的 科学 计算 器 。 

。 给 变量 赋值 以 便 重复 使 用 。 

e R 有 正 负 无 穷 、 无 值 可 用 、 缺 失 值 这 几 种 特殊 值 以 协助 数学 运算 。 
。 R 使 用 troolean 逻辑 。 


2.7 ”知识 测试 问题 
， 门 题 2.1 
用 于 整数 除法 的 操作 符 是 什么 ? 








。 问题 2-2 
如 何 检查 变量 x 是 否 等 于 pi ? 








。 问题 2-3 

至 少 描述 两 种 给 变量 赋值 的 方式 。 

。 问题 2-4 

这 5 个 数字 中 哪些 是 无 限 值 : 90，Inf，-Inf，NaN FNNA? 











。 问题 2-5 
5 个 数字 中 哪些 不 是 缺失 值 : ©, Inf, -Inf, NaN 和 NA? 


2.8 知识 测试 : 练习 


。 练习 2-1 
计算 1~1000 所 有 整数 的 倒数 的 反正 切 (Bll arctan)。 提 示 : 参考 ?Trig 帮助 页 面 找到 反 
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正切 函数 。 你 并 不 需要 一 个 函数 来 计算 倒数 。[5] 
给 变量 x 分 配 从 1 到 1000 的 数字 向 量 。 计 算 x 的 倒数 的 反正 切 值 ， 如 第 1 题 所 示 ， 然 后 
将 其 分 配给 变量 y。 现 在 逆转 此 操作 ， 计 算 y 的 切线 的 倒数 ， 然 后 把 值 赋 给 变量 ze [5] 








练习 2-2 

使 用 == 符号 、identical 和 all.equal 函数 ， 比 较 练习 2-1 第 2 题 中 的 x 和 z 变量 。 对 
于 all.equal， 尝 试 通过 传人 函数 的 第 三 个 参数 改变 其 容 差 度 。 如 果 容 差 设 置 为 0， 会 
发 生 什么 ? [10] 


练习 2-3 

定义 下 面 的 向 量 。 

(1) 把 true_and_missing 赋值 为 TRUE 和 NA (至 少 其 中 一 个 ， 不 限 顺 序 ) 。 
(2) 把 false_and_missing 赋值 为 FALSE 和 NA。 

(3) 把 mixed 赋值 为 TRUE、FALSE 和 NA. 

将 any 和 all 国 数 应 用 于 以 上 每 个 向 量 。[5] 
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到 目前 为 止 ， 我 们 已 经 进行 了 一 些 运算 操作 以 及 变量 赋值 。 本 章 将 探讨 检查 这 些 变 量 的 属 
性 的 方法 ， 并 对 具有 这 些 属性 的 用 户 工作 区 进行 操作 。 


31 本 章 目标 
阅读 本 章 后 ， 你 会 了 解 以 下 内 容 : 

。 什么 是 类 ， 以 及 一 些 常见 类 的 名 称 ， 
。 如 何 转换 变量 类 型 ， 

。 如 何 检查 变量 并 查找 有 用 的 信息 ， 

。 如 何 操作 用 户 工作 区 。 


3.2 类 

R 中 的 所 有 变量 都 有 一 个 类 ， 表 明 此 变量 属于 什么 类 型 。 例 如 ， 大 部 分 的 数字 是 numeric 
类 (其 他 类 型 请 参见 下 一 节 )， 逻 辑 值 是 logical 类 。 其 实 ， 因 为 R 没有 标量 类 型 (scalar 
type) ， 所 以 更 严格 地 说 ， 数 字 向 量 应 该 是 numeric 类 ， 逻 辑 值 向 量 是 logical 类 。 Æ RP 
“最 小 的 ”数据 类 型 是 向 量 。 

可 使 用 class(my_variable) 来 找 出 变量 的 类 名 : 








x 




















class(c(TRUE, FALSE)) 
## [1] "logical" 
值得 的 注意 是 ， 所 有 的 变量 除了 类 之 外 ， 还 有 一 个 内 部 存储 类 型 (通过 typeof 访问 )、 一 
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个 模式 (mode)， 以 及 一 个 存储 模式 (storage.mode)。 这 上 听 起 来 很 复杂 ， 不 过 无 需 担 心 ， 
因为 类 型 、 模 式 和 存储 模式 大 多 为 历史 遗留 存在 ， 实 际 中 你 只 需 使 用 对 象 的 类 (除非 你 加 
入 了 R 的 核心 团队 )。 附 录 A 有 一 个 参照 表 显 示 了 各 种 变量 类 型 的 类 、 类 型 和 (存储 ) 模 
式 及 其 关系 。 如 果 你 不 认识 其 中 的 一 些 类 ， 不 用 担心 ， 也 没 必 要 死记 硬 背 。 你 只 需 浏览 表 
格 ， 注 意 它们 之 间 的 关联 性 。 


简单 起 见 ， 从 现在 开始 ， 我 会 把 “类 ” (class) 和 “类 型 ”(type) 完全 等 同 起 来 (除非 曙 
作 说 明 )。 
3.3 不 同类 型 的 数字 


我 们 在 前 一 章 所 创建 的 所 有 变量 都 是 数字 ， 但 R 包含 三 种 不 同类 别 的 数值 变量 : 浮 点 值 
numeric、 整 数 integer 和 复数 complex。 可 通过 检查 变量 的 类 型 class 把 它们 分 辨 出 来 : 























class(sqrt(1:10)) 
## [1] "numeric" 


class(3 + 1i) #"i" 创建 了 复数 的 虚 部 





## [1] "complex" 





class(1) # 尽管 只 有 一 个 数字 ， 这 也 是 一 个 numeric 类 
## [1] "numeric" 
class(1L) # 添加 上 L 后缀 把 数字 变 为 整 型 


## [1] "integer" 





class(0.5:4.5) # 冒 号 操作 符 返 回 的 值 是 numeric 类 …… 
## [1] "numeric" 

class(1:5) # 除非 所 有 值 都 是 整数 

## [1] "integer" 


请 注意 ， 当 写作 本 书 时 ， 即 使 把 R 程序 安装 在 64 位 操作 系统 上 ， 所 有 的 浮 点 数 仍 是 32 位 
的 〈“ 双 精度 ")， 而 16 位 (CEFR) 的 数字 是 不 存在 的 。 


输入 Machine 将 显示 一 些 R 的 数字 属性 信息 。 虽 然 从 理论 上 说 ， 这 些 值 在 不 同 的 机 器 上 可 
能 不 一 样 ， 但 在 大 多 数 的 构建 (build) 中 ， 大 部 分 的 值 是 相同 的 。 通 常情 况 下 ， 你 无 需 留 
意 .Machine 返回 的 值 。 但 值得 注意 的 是 ，R 中 最 大 的 全 精度 浮 点 数 是 1.8e368。 此 数值 对 于 
满足 日 常 工作 已 足够 大 ， 但 比 无 穷 大 要 小 得 多 ! 可 以 表示 的 最 小 正 数 是 2.2e-308。 最 大 的 
整数 为 2 ^ 31 - 1， 它 不 过 比 二 十 亿 多 一 点 儿 罢 了 (反之 最 小 的 负 整数 为 -2 ^ 31 + 1) “。 


TEL: 如 果 这 些 极限 值 还 不 够 你 用 ， 你 可 以 从 Rmpfr 包 中 得 到 更 高 精度 的 值 ， 或 从 brobdingnab 包 得 到 非常 
大 的 数字 。 不 过 ， 这 些 都 是 非常 少见 的 需求 ， 而 R 中 的 三 个 内 置 数字 类 几乎 能 适用 于 所 有 用 途 。 
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其 他 唯一 值得 注意 的 数值 是 。 ， 它 是 最 小 的 正 序 点数 ， 例 如 1s + 1| t= 1。 你 可 以 用 
这 种 奇特 的 方法 来 表示 两 个 数 是 如 此 之 接近 ， 因 而 R 知道 它们 是 不 同 的 。 它 的 值 大 概 为 
2.2e-16。 在 你 使 用 all.equal 来 比较 两 个 数字 向 量 是 否 相 等 时 ， 这 个 值 就 会 被 派 上 用 场 。 
事实 上 ， 所 有 这 些 都 比 你 想象 的 更 简单 ， 因 为 完全 不 可 能 (故意 地 ) 不 使 用 整数 。R 的 设 
计 使 得 几乎 在 所 有 地 方 都 需要 使 用 整数 ， 例 如 对 一 个 向 量 进 行 索 引 。 浮 点 数 也 是 如 此 。 


3.4 其 他 通用 类 


除了 我 们 已 知 的 三 个 数字 类 和 逻辑 类 ， 向 量 还 有 其 他 三 个 类 ， 它 们 分 别 是 : 用 于 存储 文本 的 
字符 character， 存储 类 别 数据 的 因子 factor， 以 及 较 罕 见 的 存储 二 进 制 数据 的 原始 值 rawo 


在 下 例 中 ， 正 如 之 前 创建 数字 向 量 一 样 ， 我 们 使 用 c 运算 符 创建 了 一 个 字符 向 量 。 字 符 向 


量 的 类 是 character: 














class(c("she", "sells", "seashells", "on", "the", "sea", "shore")) 


## [1] "character" 





请 注意 ， 和 某 些 语言 不 同 ，R 不 区 分 整个 字符 串 和 单个 字符 一 一 只 包含 一 个 字符 的 字符 串 
与 其 他 字符 串 的 处 理 相 同 。 与 一 些 低级 语言 不 同 ， 你 无 需 用 空 字符 (\0) 来 终止 字符 串 。 
事实 上 ， 把 这 样 一 个 字符 加 进 字 符 串 中 也 是 错误 的 。 


在 许多 编程 语言 中 ， 类 别 数 据 用 整数 表示 。 例 如 ，gender 中 用 1 来 代表 female, 2 代表 
male。 稍 好 的 办 法 是 把 gender 当 作 带 有 “female” 和 “male” 选 项 的 字符 变量 。 然 而 ， 因 
为 类 别 数据 与 传统 的 纯 文本 是 不 同 的 概念 ， 所 以 从 语义 上 看 这 仍然 不 妥 。R 找到 了 一 种 更 
有 效 的 方法 ， 把 这 两 种 方法 整合 到 一 个 语义 正确 的 类 里 面 一 一 因子 (factor)， 即 拥有 标签 
的 整数 : 
































(gender <- factor(c("male", "female", "female", "male", "female"))) 


## [1] male female female male female 
## Levels: female male 


因子 的 内 容 看 起 来 与 它们 所 对 应 的 字符 一 样 一 一 这 样 每 个 值 都 能 得 到 一 个 可 读 性 很 好 
的 标签 。 这 些 标签 被 限制 在 称 为 因子 水 平 (levels of the factor) 的 特定 值 中 (本 例 中 为 


“female” 和 “male”): 





LeveLs(gender) 
## [1] "female" "male" 
nlevels(gender ) 


## [1] 2 
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请 注意 ， 即 使 “male” 是 gender 中 的 第 一 个 值 ， 第 一 个 水 平 仍 是 “female”。 上 默认 情况 下 ， 
因子 水 平 按 字母 顺序 分 配 。 


在 底层 ， 因 子 的 值 被 存储 为 整数 而 非 字 符 。 你 可 通过 调用 as.integer 清楚 地 看 到 : 




















as.integer (gender) 


## [1] 21121 


采取 整数 而 非 字 符 文本 的 存储 方式 ， 令 内 存 的 使 用 非常 高 效 ， 尤 其 当 出 现 大 量 重复 字符 
串 时 。 如 果 我 们 再 夸张 一 点 ， 生 成 10 000 个 随机 的 gender 值 (使 用 sample 国 数 对 字符 串 
“female” 和 “male” 随 机 采样 10 000 次 并 使 用 replace 选项 ) ， 可 以 看 到 ， 一 个 因子 包含 
的 值 比 同等 字符 占用 更 少 的 内 存 。 在 以 下 代码 中 ，sample 返回 一 个 字符 向 量 (这 是 使 用 
as.factor 转换 而 成 的 )， 而 object.size 则 返回 每 个 对 象 的 内 存 分 配 大 小 : 

















gender_char <- sample(c("female", "male"), 10000, replace = TRUE) 
gender_fac <- as.factor(gender_char) 

object.size(gender_char) 

## 80136 bytes 


object.size(gender_fac) 


## 40512 bytes 





Va 
eet 32 位 和 64 位 系统 中 变量 所 占用 的 内 存 数量 是 不 一 样 的 ， 所 以 在 不 同情 况 下 
人 心 。 object.size 将 返回 不 同 的 值 。 

nk 

















当 操作 因子 水 平 的 内 容 时 (常见 的 例子 是 : 清理 命名 ， 把 所 有 的 男性 字符 统一 为 “male” 
而 韭 “Male”)， 最 好 先 把 因子 转换 成 字符 串 后 再 处 理 ， 以 便 充分 利用 字符 串 操 作 函 数 。 可 
以 使 用 as .character 函数 完成 转换 : 











as.character(gender) 

## [1] "male" "female" "female" "male" "female" 
更 多 有 关 字 符 向 量 和 因子 的 内 容 将 在 第 7 章 中 深入 探讨 。 
原始 类 raw 存储 向 量 的 “原始 ” 字 节 “。 每 个 字 节 由 一 个 两 位 的 十 六 进 制 值 表示 。 它 们 主 
要 用 于 保存 输入 的 二 进 制 文件 的 内 容 ， 因 而 比较 少见 。 使 用 as.raw 函数 可 把 0 到 255 之 间 
的 整数 转换 为 原始 值 (raw)。 此 范围 之 外 的 数字 将 全 部 视 为 0， 分 数 和 虚 部 也 被 丢弃 。 对 
于 字符 串 ，as.raw 则 不 起 作用 ， 而 须 使 用 charToRaw FAR: 


























注 2: 不 确定 是 什么 字 节 。 
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as.raw(1:17) 

## [1] 01 02 03 04 05 06 07 08 09 Oa Ob Oc Od Oe Of 10 11 

as.raw(c(pi, 1 + 1i, -1, 256)) 

## Warning: imaginary parts discarded in coercion 

## Warning: out-of-range values treated as 0 in coercion to raw 

## [1] 03 01 00 00 

(sushi <- charToRaw("Fish!")) 

## [1] 46 69 73 68 21 

class(sushi) 

## [1] "raw 
除了 目前 我 们 已 了 解 到 的 向 量 类 ， 还 有 许多 其 他 类 型 的 变量 。 我 们 将 在 接 下 来 的 章节 中 继 
续 讨 论 它 们 。 
数组 包含 多 维 数据 ， 和 矩阵 (通过 matrix 类 ) 是 特殊 的 二 维 数组 ， 这 些 将 在 第 4 章 中 讨论 。 
目前 ， 所 有 这 些 变量 类 型 都 要 包含 相同 类 型 的 值 。 ig 字符 (character) 向 量 或 数组 里 
DLE ETB, EHR (logical) 向 量 或 数组 须 只 能 包含 逻辑 值 。 但 列表 (list) 则 不 一 样 
它 比较 灵活 ， 列 表 里 的 每 一 项 都 可 以 是 不 同 的 类 型 ， AO eee (aan 
frame) 像 是 矩阵 和 列表 的 共同 产物 。 它 既 像 矩 阵 一 样 是 和 矩形 的 ， 又 像 列 表 一 样 ， 每 一 列 都 
可 以 有 不 同 的 类 型 。 它 们 非常 适合 于 存储 类 似 电子 表格 这 样 的 数据 。 第 5 章 将 继续 讨论 列 
表 和 数据 框 。 


前 面 的 类 都 用 于 存储 数据 。 环 境 (environment) 中 会 存储 那些 能 保存 数据 的 变量 。 很 显 
然 ， 除了 保存 数据 之 外 ， 我 们 也 需要 函数 来 和 它 一 起 工作 ， 如 之 前 提 过 的 函数 sin a exp。 
事实 上 ， 像 + 这 样 的 操作 符 也 是 隐藏 的 国 数 ! 第 6 章 将 进一步 谈 及 环境 和 函数 。 


第 7 章 将 深入 讨论 字符 串 和 因子 ， 以 及 用 于 存储 日 期 和 时 间 的 一 些 选项 。 









































R 中 还 有 一 些 稍 难 理解 的 类 型 ， 留 待 后 文 讨 论 。 第 15 章 将 讨论 公式 (formuale) ; 16.5 Vi 
将 讨论 调用 (call) 和 表达 式 (expression ) ;16.6 节 则 将 进一步 探讨 类 。 


3.5 ”检查 和 更 改 类 


直接 在 命令 提示 符 下 ， 以 交互 的 方式 键入 类 class 的 函数 名 来 检查 变量 是 很 有 用 的 。 但 是 
如 果 想 在 脚本 中 测试 对 象 的 类 型 ， 则 最 好 用 is 函数 ， 或 针对 某 个 类 写 的 特定 函数 。 通 常 ， 
我 们 会 做 这 样 的 测试 : 
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if(!is(x, "some_class")) 


{ 
# 采取 某 些 纠正 措施 





} 
大 部 分 的 类 都 会 有 自己 的 ts.* 函数 。 通 常 ， 直 接 调用 它们 比 使 用 通用 is 函数 稍 显 高 效 。 
例如 : 
is.character("red lorry, yellow lorry") 
## [1] TRUE 
is. logical(FALSE) 
## [1] TRUE 
is.list(list(a = 1, b = 2)) 
## [1] TRUE 
以 下 命令 可 查看 在 base 包 中 所 有 的 is 函数 : 
ls(pattern = "4is", baseenv()) 
## [1] "is.array" "is.atomic" 
## [3] "ts.call" "is.character" 
## [5] "is.complex" "is.data.frame" 
## [7] "is.double" "is.element" 
## [9] "is.environment" "is.expression" 
## [11] "is.factor" "is. finite" 
## [13] "ts.function" "is.infinite" 
## [15] "is.integer" "is. language" 
## [17] "is.list" "is. loaded" 
## [19] "is. logical" "is.matrix" 
## [21] "is.na" "is.na.data. frame" 
## [23] "its.na.numeric_version" "is.na.POSIX1t" 
## [25] "is.na<-" "is.na<-.default" 
## [27] "is.na<-.factor" "is.name" 
## [29] "is.nan" "is nutil” 
## [31] "is.numeric" "is.numeric.Date" 
## [33] "is.numeric.difftime"  "is.numeric.POSIXt" 
## [35] "is.numeric_version" "is.object" 
## [37] "is.ordered" "is.package_version" 
## [39] "is.pairlist" "is.primitive" 
## [41] "is.qr" "is.R" 
## [43] "is.raw" "is.recursive" 
## [45] "is.single" "is.symbol" 
## [47] "is.table" "is.unsorted" 
## [49] "is.vector" "isatty" 
## [51] "itsBaseNamespace" "isdebugged" 
## [53] "isIncomplete" "isNamespace" 
## [55] "isOpen" "isRestart" 
## [57] "isS4" "isSeekable" 
## [59] "isSymmetric" "isSymmetric.matrix" 
## [61] "isTRUE" 
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在 上 例 中 ，1s 列 出 所 有 的 变量 名 ，"^is'" 是 一 个 正则 表达 式 ， 它 意味 着 “匹配 所 有 以 'is' 
开头 的 字符 串 ”， 而 baseenv 国 数 则 返回 base 包 中 所 有 的 环境 。 环境 是 相对 高 级 的 话题 ， 
将 在 第 6 章 讨 论 ， 现 在 不 用 拘泥 于 它 的 含义 。 


assertive 包含 有 更 多 is 国 数 ， 命 名 方式 更 加 一 致 。 


有 点 奇怪 的 是 ，is .numeric 函数 对 整数 和 浮 点 数 都 返回 TRUE 值 。 如 果 我 们 只 测试 浮 点 数 ， 
则 须 使 用 is.double。 然 而 ， 一 般 无 需 这 么 做 ， 因 为 在 R 中 浮 点 和 整数 几乎 能 互 换 使 用 。 
请 注意 ， 在 下 例 中 ， 在 数字 后 面 添加 上 后 组 就 能 把 它 转换 为 整数 





























is.numeric(1) 

## [1] TRUE 

is.numeric(4L) 

## [1] TRUE 

is. integer (1) 

## [1] FALSE 

is. integer (1L) 

## [1] TRUE 

is.double(1) 

## [1] TRUE 

is.double(4L) 

## [1] FALSE 
有 时 候 ， 我 们 想 改变 一 个 对 象 的 类 型 。 这 就 是 所 谓 的 转型 (casting)， 大 部 分 的 is* 函数 
都 有 与 之 对 应 的 as* 函数 。 尽 可 能 使 用 特定 的 as* 国 数 而 非 单 纯 的 as 国 数 ， 因 为 它们 通 
常 更 有 效 ， 而 且 往往 针对 该 类 会 有 额外 的 逻辑 。 例 如 ， 当 尝试 把 字符 串 转 换 为 数字 时 ， 
as.numeric 比 单独 的 as 函数 效率 稍 高 ， 虽 然 两 者 丝 可 使 用 : 





x <- "123.456" 
as(x, "numeric") 


## [1] 123.5 
as .numeric(x) 


## [1] 123.5 





注 3: 这 个 包 是 我 写 的 。 
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Va 
R 能 打印 到 小 数 点 后 第 几 位 取决 于 R 的 设置 。 你 可 以 使 用 options (digits=n) 
心 来 设置 全 局 默认 选项 ， 其 中 mn 在 1 和 ?22 之 间 。 第 7 章 将 再 讨论 如 何 控制 打 


nex 


” 印 数字 。 

















然而 ， 请 注意 在 下 例 中 ， 当 一 个 向 量 被 转换 成 一 个 数据 框 时 〈 类 似 电子 表格 的 数据 变 
国 数 抛 出 一 个 错误 ， 








i 











y <- c(2, 12, 343, 34997) # 请 参考 http://oeis.org/A192892 
as(y, "data.frame") 
as.data.frame(y) 


Va 


as 一 般 情 况 下 ， 特 定 类 的 变量 的 使 用 应 始终 优先 于 标准 函数 as。 
as! 








尽管 不 推荐 (UL 16.7 节 ， 类 的 分 配 另 有 用 途 ) ， 我 们 也 可 以 直接 给 对 象 分 配 一 个 新 的 类 以 
改变 其 类 型 : 

x <- "123.456" 

class(x) <- "numeric" 

x 

## [1] 123.5 


is.numeric(x) 


## [1] TRUE 


3.6 ”检查 变量 


当 在 控制 台 输入 一 个 运算 或 者 变量 时 ， 结 果 就 被 打印 出 来 ， 因 为 R 隐 式 调用 了 对 象 的 print 
方法 。 














we 对 以 下 术语 稍 作 解释 : 大 多 情况 下 , “方法”(method) #1 “ee Ac” (function) 
N > 是 可 以 互 换 的 。 有 时 ，R 中 的 函数 也 称 为 面向 对 象 中 的 方法 。 不 同类 型 的 对 





Os, 


象 有 不 同 版 本 的 print 国 数 ， 这 使 得 矩阵 与 向 量 的 打印 方法 不 同 ， 这 就 是 谈 
到 “打印 方法 ”的 原因 。 





所 以 ， 在 命令 提示 符 下 输入 1 + 1 与 print( 1 + 1) 一样。 
但 是 ， 对 于 内 循环 或 函数 来 说 *， 自 动 打印 功能 不 起 作用 ， 我 们 必须 显 式 地 调用 print: 








注 4: 除非 函数 返回 了 值 。 
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ulams_spiral <- c(1, 8, 23, 46, 77) # 参考 http://oeis.org/A033951 
for(i in ulams_spiral) i # 啊 哦 ， 值 没有 打印 出 来 


for(i in ulams_spiral) print(i) 


## [1] 1 
## [1] 8 
## [1] 23 
## [1] 46 
## [1] 77 


T 终端 而 不 是 在 GUI 或 IDE 上 运行 R， 在 某 些 系统 上 这 个 问题 的 确 存在 。 在 这 种 
SOUP, ， 你 就 一 直 需 要 显 式 调用 print 国 数 。 


大 部 分 print 国 数 的 实现 建立 在 调用 底层 的 cat 国 数 上 。 虽 然 你 可 能 永远 无 需 直 接 调 用 cat 
(与 之 对 应 的 用 户 级 命令 是 print 和 message) ， 但 是 仍 应 对 此 有 所 了 解 ， 以 便 在 需要 时 末 
自 编写 print 函数 











Va 


c 和 cat 函数 都 是 concatenate 的 缩写 ， 但 它们 的 作用 完全 不 同 ! cat 是 以 
N Unix 中 的 函数 命名 的 。 


NA 
os 


除了 查看 变量 的 打印 输出 ， 最 好 也 能 看 到 某 种 程度 的 对 象 汇 总 信息 。summary 函数 就 能 为 
不 同 的 数据 类 型 提供 汇总 信息 。 例 如 ， 数 值 变量 会 被 汇总 统计 出 平均 数 、 中 位 数 ， 以 及 一 
些 分 位 数 (quantile)。 在 下 例 中 ，runif KERER 30 个 均匀 分 布 于 0 和 1 之 间 的 随机 数 : 





num <- runif(30) 
summary(num) 


# Min. 1st Qu. Median Mean 3rd Qu. Max. 

## 0.0211 0.2960 0.5060 0.5290 0.7810 0.9920 
类 别 变 量 和 人 逻辑 向 量 将 根据 每 个 值 的 计算 进行 汇总 。 在 下 例 中 ，letters E—-TA BY 
数 ， 它 包含 了 从 a 到 z 的 小 写 值 (大 写 的 LETTERS 则 包括 了 类 似 的 从 A BI ZW KSI). 
这 里 Letters[ 1:5] 用 索引 限制 letters 的 范围 为 从 a 到 e。sample 函数 使 用 重复 抽样 
replace 随机 抽样 30 次 : 


fac <- factor(sample(letters[1:5], 30, replace = TRUE)) 
summary(fac) 





























## a de 
## 6 9 3 
bool <- sample(c(TRUE, FALSE, NA), 30, replace = TRUE) 
summary(boolL) 


## Mode FALSE TRUE NA's 
## logical 12 11 7 





TES: 也 许 就 像 在 练习 16-3 中 那样 。 
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多 维 对 象 与 矩阵 及 数据 框 一 样 ， 都 是 通过 列 来 汇总 的 〈 第 4 章 和 第 5 章 将 做 更 详细 的 讨 
论 )。 我 们 在 下 面 创建 的 数据 框 dfr 非常 大 ， 显 示 出 来 足 足 有 30 行 。 对 于 这 样 的 庞然大物 ”， 
用 head 函数 即 可 仅 显 示 它 的 前 儿 行 (默认 为 6 行 ) : 








dfr <- data.frame(num, fac, bool) 


head(dfr) 

Ht num fac bool 
## 1 0.47316 b NA 
## 2 0.56782 d FALSE 
## 3 0.46205 d FALSE 
## 4 0.02114 b TRUE 
## 5 0.27963 a TRUE 
## 6 0.46690 a TRUE 


数据 框 的 summary 国 数 就 像 为 每 列 单独 调用 summary 一 样 : 








j 


summary(dfr) 

## num fac bool 

## Min. 20.0211 a:6 Mode :logical 
## 1st Qu.:0.2958 b:7 FALSE: 12 

## Median :0.5061 CIS TRUE :11 

## Mean :0.5285 d:9 NA's :7 

## 3rd Qu.:0.7808 e:3 

## Max. 70.9916 


类 似 地 ，str 函数 能 显示 对 象 的 结构 。 对 向 量 来 说 ， 它 并 非 很 有 趣 (因为 它们 太 简 单 了 )， 
但 str 对 数据 框 和 艇 套 列 表 非 常 有 用 : 


str(num) 
## num [1:30] 0.4732 0.5678 0.462 0.0211 0.2796 ... 


str(dfr) 

## 'data.frame': 30 obs. of 3 variables: 

## $ num: num 0.4732 0.5678 0.462 0.0211 0.2796 ... 

## $ fac : Factor w/ 5 levels "a","b","c","d",..: 2442114214... 
## $ bool: logi NA FALSE FALSE TRUE TRUE TRUE ... 


如 前 所 述 ， 每 个 类 都 有 自己 的 打印 (print) 方法 ， 以 此 控制 如 何 显示 到 控制 台 。 有 时 ， 这 
种 打印 模糊 了 其 内 部 结构 ， 或 忽略 了 一 些 有 用 的 信息 。 用 unclass 国 数 可 绕 开 这 一 点 ， 显 
示 变 量 是 如 何 构建 的 。 例 如 ， 对 因子 调用 unclass 国 数 会 显示 它 仅 是 一 个 整数 (integer ) 
向 量 ， 拥 有 一 个 叫 Levels 的 属性 : 








unclass(fac) 


## [1] 244211421433154515122342434234 
## attr(," levels") 
HH [1] Matt Nh new man ta” 








注 6: 现在 ，30 行 的 数据 算 不 上 是 “大 数据 "， 但 在 打印 时 它 仍 能 占 满 整 个 屏幕 。 
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稍 后 我 们 会 讨论 属性 ， 而 现在 须 了 解 的 是 ，attributes 函数 能 





attributes(fac) 


## Slevels 


HH [1] "3" "b" "c" "d" "e" 


#H 
## $class 
## [1] "factor" 


为 了 可 视 化 诸如 矩阵 和 数据 框 之 类 的 二 维 








变量 ，view (请 注意 大 写字 母 “V”) 


显示 当前 对 像 的 所 有 属性 列表 : 





函数 会 把 变 


量 (只 读 的 ) 显示 为 电子 表格 (spreadsheet), edit Fil fix 函数 的 工作 方式 与 view 类 似 ， 
但 它 允 许 手动 更 改 数据 值 。 虽 然 这 听 似 更 实用 ， 但 以 这 种 方式 编辑 数据 却 是 个 无 比 糟糕 的 
主意 ， 因 为 我 们 会 失去 所 有 的 可 追溯 性 而 无 法 追踪 数据 的 出 处 。 最 好 的 方式 还 是 使 用 编程 





来 编辑 数据 : 
View(dfr) 
new_dfr <- edit(dfr) 
fix(dfr) 


一 个 好 方法 是 结合 View 和 head F 


# 不 允许 更 改 
# 更 改 将 保存 于 new_dfr 
# 更 改 将 保存 于 dfr 


函数 来 查看 数据 框 的 前 几 行 : 


View(head(dfr, 50)) # 查 看 前 50 行 


3.7 工作 区 





工作 时 ， 我 们 往往 想 知道 已 经 创建 的 变 
它 是 以 与 其 类 似 的 Unix 命令 命名 的 ， 并 且 遵 循 相同 的 约定 : 默认 情况 下 ， 变 量 名 以 . 开 
头 的 是 隐藏 文件 。 要 查看 它们 ， 可 传人 all.names=TRUE 参数 : 





# 创建 一 些 变量 以 便 查 找 


peach <- a 

plum <- "fruity" 
pear <- TRUE 

ls() 

## [1] "a_vector" 
## [4] "dfr" 

## [7] "gender" 
## [10] "i" 


## [13] "none_true" 

## [16] "peach" 

## [19] "remove_package" 
## [22] "ulams_spiral" 
## [25] "y" 





ls(pattern = "ea") 


## [1] "peach" "pear" 





量 及 其 内 容 。 用 ts 函数 即 可 列 出 现 有 变 


"all_true" "bool" 

"fac" "fname" 
"gender_char" "gender_fac" 
"input" "my_local_variable" 
"num" "output" 

"pear" "plum" 

"some_true" "sushi" 

ny" "xy" 

mzs "2z" 





量 的 名 称 。 
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要 了 解 更 多 工作 区 中 的 信息 ， 可 使 用 1s.str 函数 查看 变量 的 结构 。 可 能 正如 你 所 料 ， 它 是 
ls 和 str 函数 的 结合 ， 且 它 在 调试 会 话 (session) 中 作用 很 大 (I 16.4 节 )。browseEnv 提 
供 类 似 的 功能 ， 但 它 在 网 页 浏览 器 中 以 HTML 页 面 的 格式 显示 其 输出 : 

















browseEnv() 


工作 一 段 时 间 后 ， 尤 其 在 数据 挖掘 中 ， 工 作 区 会 变 得 相当 凌乱 ， 我 们 可 以 使 用 rm 函数 删 
除 变量 来 清理 区 间 : 


rm(peach, plum, pear) 


rm(list = 1s()) # 删除 所 有 变量 。 小 心 使 用 





3.8 小结 


。 所 有 的 变量 都 有 一 个 类 。 

。 可 通过 is 函数 或 特定 类 的 变量 来 测试 一 个 对 象 是 否 是 某 个 类 。 

。 可 使 用 as 函数 或 特定 类 的 变量 来 改变 一 个 对 象 的 类 。 

。 有 几 个 国 数 可 用 于 检视 变量 ， 其 中 包括 summary、head、str、unclass、attributes 和 
View. 

。 1s 能 列 出 你 的 变量 ，Ls.str 则 连同 名 字 及 结构 一 起 列 出 。 


。 rm 能 删除 变量 。 


3.9 知识 测试 : 问题 
。 问题 3-1 
数字 的 三 个 内 置 类 的 名 称 是 什么 ? 











。 问题 3-2 

用 什么 函数 查找 了 因子 的 水 平 值 ? 

。 问题 3-3 

如 何 把 字符 串 “6.283185” 转 换 为 数字 ? 
。 问题 3-4 

指出 至 少 三 个 用 于 检视 变量 内 容 的 函数 。 





。 问题 3-5 
如 何 删除 用 户 工 作 区 中 的 所 有 变量 ? 
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3.10 知识 测试 : AY 
。 练习 3-1 
查找 以 下 值 Inf、NA、NaN 和 "" 的 类 、 类 型 、 模 式 及 存储 模式 。[5] 


。 练习 3-2 
随机 从 “dog”、“cat”"、“hamster” 和 “goldfish” 中 以 相等 的 概率 生成 1000 个 宠物 名 。 
显示 所 得 变量 的 前 几 个 值 ， 并 计算 每 种 宠物 的 数量 。[5] 


。 练习 3-3 
创建 一 些 以 蔬菜 命名 的 变量 。 列 出 用 户 工 作 区 中 所 有 包含 字母 “a” 的 变量 。[5] 

















第 4 章 


Be, SRM 





第 1 章 和 第 2 章 介 绍 了 几 种 向 量 类 型 : 逻辑 值 向 量 、 字 符 串 向 量 和 数字 向 量 。 本 章 将 介绍 
更 多 向 量 的 操作 方法 ， 以 及 它们 的 多 维 兄 弟 : 矩阵 和 数组 。 


4.1 本 章 目标 
阅读 完 本 章 后 ， 你 会 了 解 以 下 内 容 ， 


。 如 何 从 现 有 向量 中 创建 出 新 的 向 量 ， 
。 长 度 、 维 度 和 命名 ; 
。 如 何 创建 、 操 纵 怎 阵 和 数组 。 


4.2 [j= 


现在 ， 你 已 经 试 过 用 冒号 运算 符 : 来 创建 从 某 个 数 到 另 一 个 数 的 数字 序列 ， 以 及 用 c 函数 
来 拼接 数值 和 向 量 ， 以 创建 更 长 的 向 量 。 总 结 如 下 : 


8.5:4.5 # 从 8.5 到 4.5 的 数字 序列 




















## [1] 8.5 7.5 6.5 5.5 4.5 
c(1, 1:3, c(5, 8), 13) # 不 同 值 被 拼接 成 单一 向 量 
## [1] 1 1 2 3 5 813 


vector 国 数 能 创建 一 个 指定 类 型 和 长 度 的 矢量 。 甚 结果 中 的 值 可 为 零 、FALSE、 空 字符 串 ， 
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或 任何 相当 于 “什么 都 没有 ” (nothing) 的 类 型 ; 
vector("numeric", 5) 
## [1] 00000 
vector("complex", 5) 
## [1] 0+0i 0+0i 0+0i 0+0i 0+0i 
vector("logical", 5) 
## [1] FALSE FALSE FALSE FALSE FALSE 
vector("character", 5) 
# EL e 
vector("list", 5) 


## [[1]] 
# NULL 


## [[2]] 
# NULL 


## [[3]] 
## NULL 


## [[4]] 
# NULL 





## [[5]] 
## NULL 
在 上 例 中 ，NULL 是 一 个 特殊 的 “ 空 ” 值 (CASES RRA NAIA). BS 章 会 详细 
讨论 NULL。 为 方便 起 见 ， 用 每 个 类 型 的 包装 (wrapper) 国 数 来 创建 矢量 以 节省 打字 时 间 。 
下 列 命令 与 上 面 代码 中 的 命令 是 等 价 的 : 





numeric(5) 

## [1] 00000 

complex(5) 

## [1] 0+0i 0+0i 0+0i 0+0i 0+0i 
logical(5) 

## [1] FALSE FALSE FALSE FALSE FALSE 
character(5) 


He [ape ees 
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在 下 一 章 中 我 们 将 看 到 ，list 函数 的 工作 方式 与 它们 不 一 样 。list(5) 创建 的 
心 人 


S ` 
4.2.1 序列 
除了 冒号 运算 符 之 外 ， 还 有 几 个 其 他 函数 能 创建 更 为 通用 的 序列 。 甚 中，seq AA IL, 


能 以 许多 不 同 的 方式 指定 序列 。 然 而 在 实际 中 ， 你 不 需要 调用 它 ， 因 为 有 三 个 专门 的 序列 
函数 ， 运 行 更 快 且 更 易 用 ， 满 足 了 特定 场合 的 使 用 。 





























seq.int 可 创建 一 个 序列 ， 序 列 的 范围 由 两 个 数字 指定 。 只 需 两 个 参数 ， 原 理 与 冒号 运算 
符 完全 相同 : 








seq.int(3, 12) # 与 3:12 相同 
## [1] 3 4 5 6 7 8 9 10 11 12 


seq. int 稍微 比 : 更 通用 些 ， 因 为 它 可 以 指定 步 长 : 





seq.int(3, 12, 2) 

## [1] 3 5 7 911 

seq.int(0.1, 0.01, -0.01) 

## [1] 0.10 0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 


因为 seq_len 函数 将 创建 一 个 从 1 i e FYJ, ALAH seq_len(5) 来 表达 1:5 有 
些 笨拙 。 不 过 ， 当 输入 值 为 零 时 ， 该 函数 非常 有 用 : 


din # 和 你 预期 的 可 能 不 一 样 ! 





## [1] 10 
seq_len(n) 
## integer(0) 


seq_along 创建 一 个 从 1 开始 、 长 度 为 其 输入 值 的 序列 : 














pp <- c("Peter", "Piper", "picked", "a", "peck", "of", "pickled", "peppers") 
for(i in seq_along(pp)) print(pp[i]) 


## [1] "Peter" 
## [1] "Piper" 
## [1] "picked" 
## [1] "a" 
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## [1] "peck" 

## [1] "of" 

## [1] "pickled" 

## [1] "peppers" 
在 以 上 的 每 一 个 例子 中 ， 你 都 可 以 简单 地 用 seq $t seq. int, seq_len 或 seq_atong， 得 
到 的 结果 相同 ， 虽 然 这 样 做 并 无 必要 。 


42.2 长度 

我 们 刚才 已 经 悄悄 地 引入 了 一 个 关于 向 量 的 新 概念 : 所 有 的 向 量 都 有 一 个 长 度 ， 它 告诉 我 
们 向 量 包含 多 少 个 元 素 。 这 是 一 个 非 负 整数 ”( 是 的 ， 向 量 的 长 度 可 以 为 零 )， 你 可 以 通过 
Length 国 数 查 到 这 个 值 。 缺 失 值 也 会 被 计 和 长度: 








Length(1:5) 

## [1] 5 

length(c(TRUE, FALSE, NA)) 
## [1] 3 


容易 造成 混淆 的 地 方 是 字符 向 量 。 它 们 的 长 度 为 字符 串 的 数目 ， 而 非 每 个 字符 串 中 字符 数 
的 长 度 。 对 此 ， 我 们 使 用 nchar: 








sn <- c("Sheena", "leads", "Sheila", "needs") 
Length(sn) 


## [1] 4 

nchar(sn) 

## [1] 6565 
我 们 也 可 以 为 向 量 重新 分 配 一 个 长 度 ， 不 过 很 少 这 么 做 ， 且 儿 近 意味 着 糟糕 的 代码 。 例 
如 ， 如 果 向 量 的 长 度 缩短 ， 那 么 后 面 的 值 将 会 被 删除 ， 而 如 果 长 度 增加 ， 则 缺失 值 会 添加 
到 最 后 : 





poincare <- c(1, 0, 0, 0, 2, 0, 2, 0) # 请 参见 : http://oeis.org/A051629 
length(poincare) <- 3 
poincare 


## [1] 100 


length(poincare) <- 8 
poincare 


## [1] 1 0 © NA NA NA NA NA 





TE 1: 在 32 位 的 系统 以 及 3.0.0 之 前 版 本 的 R 中 ， 长 度 被 限制 为 2*31-1 个 元 素 。 
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4.2.3 命名 


R 向 量 的 一 大 特性 是 能 给 每 个 元 素 命 名 。 通 常 ， 标 记 元 素 可 使 代码 可 读 性 更 强 。 你 可 以 使 
用 name = value 的 形式 在 创建 向 量 时 为 其 指定 名 称 。 如 果 元 素 的 名 称 是 有 效 的 ， 则 无 需 被 
引号 括 起 来 。 你 也 可 以 只 命名 向 量 中 的 某 些 元 素 而 忽略 其 他 元 素 : 








c(apple = 1, banana = 2, "kiwi fruit" = 3, 4) 


## apple banana kiwi fruit 
BH 1 2 3 4 


你 也 可 以 在 向 量 创建 后 用 names 函数 为 元 素 添 加 名 字 : 








x <- 1:4 
names(x) <- c("apple", "bananas", "kiwi fruit", "") 
x 


Ht apple bananas kiwi fruit 
## 1 2 3 4 


此 name 函数 也 可 用 于 取得 向 量 的 名 称 : 


names(x) 


## [1] "apple" "bananas" "kiwi fruit" "" 
如 果 向 量 中 没有 一 个 元 素 有 名 字 ， 则 names 函数 返回 NULL: 
names(1:4) 


## NULL 


424 索引 向 量 

a 我 们 只 要 访问 向 量 中 的 部 分 或 个 别 元 素 。 这 就 是 所 谓 的 索引 ， 它 用 方 括号 [] 来 实 
。( 有 人 也 称 之 为 子 集 、 下 标 或 切片 ， 这 些 术 语 所 指 相同 。) R 系统 非常 灵活 ， 提 供 如 下 

pita iets 


。 给 向 量 传 入 正 数 ， 它 会 返回 此 位 置 上 的 向 量 元 素 切 片 。 它 的 第 一 个 位 置 是 1 (而 不 像 其 
他 某 些 语言 一 样 是 0) 。 

。 给 向 量 传人 负数 ， 它 会 返回 一 个 向 量 切片 ， 它 将 包含 除了 这 些 位 置 以 外 的 所 有 元 素 。 

。 给 向 量 传 入 一 个 逻辑 向 量 ， 它 会 返回 一 个 向 量 切片 ， 里 面 只 包含 索引 为 TRUE 的 元 素 。 

。 对 于 已 命名 的 向 量 ， 给 向 量 传 入 命名 的 字符 向 量 ， 将 会 返回 向 量 中 包含 这 些 名 字 的 元 素 
切片 。 


请 看 以 下 向 量 : 






































可 
二 
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x <- (1:5) ^ 2 


## [1] 1 4 9 16 25 





以 下 三 个 索引 方法 都 将 返回 相同 的 值 : 


x[c(1, 3, 5)] 














x[c(-2, -4)] 
x[c(TRUE, FALSE, TRUE, FALSE, TRUE)] 


## [1] 1 9 25 
如 果 给 每 个 元 素 命 名 ， 以 下 方法 也 将 返回 相同 的 值 : 


names(x) <- c("one", "four", "nine", "sixteen", "twenty five") 
x[c("one", "nine", "twenty five") ] 


#H one nine twenty five 
## 1 9 25 


混合 使 用 正 负 值 是 不 允许 的 ， 会 抛 出 一 个 错误 : 
x[c(1, -1)] # 这 说 不 通 ! 
## Error: only 0's may be mixed with negative subscripts 
如 果 你 使 用 正 数 或 逻辑 值 作 为 下 标 ， 那 么 缺失 索引 所 对 应 的 值 同样 也 是 缺失 值 : 
x[c(1, NA, 5)] 
#H one <NA> twenty five 
## 1 NA 25 
x[c(TRUE, FALSE, NA, FALSE, TRUE)] 


#H one <NA> twenty five 
Be 1 NA 25 


对 于 负 的 下 标 值 来 说 ， 不 允许 存在 缺失 值 ， 会 产生 错误 : 


x[c(-2, NA)] # 这 也 讲 不 通 ! 





## Error: only 0's may be mixed with negative subscripts 


超出 范围 的 下 标 值 ( 即 超出 了 矢量 的 长 度 ) 不 会 导致 错误 ， 而 是 返回 缺失 值 NA。 在 实际 
中 ， 最 好 确保 你 的 下 标 值 都 在 使 用 范围 内 : 


x[6] 


























## <NA> 
## NA 


非 整数 下 标 会 默认 向 零售 人 。 这 是 另 一 个 R 被 认为 过 于 宽松 的 证 例 。 如 果 你 传人 的 下 标 是 
分 数 ， 那 么 很 可 能 你 正在 写 一 些 糟糕 的 代码 : 
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x[1.9] #1.9 BAA 1 
## one 
## 1 


x[-1.9] #-1.9 RAJ -1 


Ht four nine sixteen twenty five 
## 4 9 16 25 











不 传递 任何 下 标 值 将 返回 整个 向 量 。 不 过 再 次 提醒 ， 如 有 果 你 没有 传递 任何 索引 值 ， 那 么 很 


可 能 你 正在 做 一 些 不 靠 谱 的 事情 : 





x[] 
Ht one four nine sixteen twenty five 
Be 1 4 9 16 25 


which 函数 将 返回 逻辑 向 量 中 为 TRUE 的 位 置 。 如 有 果 要 将 逻辑 索引 切换 到 整数 索引 中 ， 这 个 


国 数 很 有 用 : 
which(x > 10) 


## sixteen twenty five 
Be 4 5 


which.min 和 which.max 分 别 是 which(min(x)) 和 which(max(x)) 的 简写 : 


which.min(x) 


## one 
#H 1 


which.max(x) 


## twenty five 
## 5 


4.25 ”向量 循环 和 重复 


到 目前 为 止 ， 所 有 相 加 在 一 起 的 向 量 都 具有 相同 的 长 度 。 你 可 能 会 问 :“ 当 我 对 不 同 长 度 


的 向 量 做 运算 ， 结 果 会 如 何 ?“ 

如 果 我 们 把 一 个 单独 的 数字 与 向 量 相 加 ， 则 向 量 的 每 个 元 素 都 会 与 该 数字 相 加 : 
1:5+1 
## [1] 23456 
1 + 1:5 


## [1] 23456 
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将 两 个 向 量 相 加 时 ，R 将 会 循环 较 短 向 量 中 的 元 素 以 配合 较 长 的 那个 : 





TeS- 1315 
## [1] 2 4 6 810 7 9 11 13 15 12 14 16 18 20 
如 果 长 向 量 的 长 度 不 是 短 向 量 长 度 的 倍数 ， 将 出 现 一 个 警告 : 
1354 137 
## Warning: Longer object length is not a multiple of shorter object length 


##[1] 2 4 6 810 7 9 


必须 强调 的 是 ， 虽 然 我 们 可 以 在 不 同 长 度 的 向 量 之 间 做 运算 ， 但 这 并 不 意味 着 应 该 这 样 
做 。 为 向 量 添加 一 个 标量 值 没 有 问题 ， 但 我 们 会 在 其 他 方面 把 自己 搞 坚 。 更 好 的 做 法 是 明 
确 地 创建 同等 长 度 的 向 量 ， 然 后 再 对 它们 进行 操作 。 


rep 国 数 非常 适合 此 类 任务 ， 它 允许 我 们 重复 使 用 元 素来 创建 矢量 : 





























rep(1:5，3) 

## [11 123451234512345 
rep(1:5, each = 3) 

## [1] 111222333444555 
rep(1:5, times = 1:5) 

## [1]122333444455555 
rep(1:5，Length.out = 7) 


##[1]1234512 


正如 seq 函数 一 样 ，rep 有 一 个 更 为 简单 和 快速 的 变 体 rep. int: 





rep.int(1:5, 3) # 与 rep(1:5，3) 一样 


## [1] 123451234512345 





类 似 seq_len， 在 最 近 的 RR 版 本 (从 v3.0.0 开始 ) 中 也 有 rep_len 函数 ， 可 指定 输出 向 量 
的 长 度 : 


rep_len(1:5, 13) 


## [1] 1234512345123 





4.3 ”和 矩阵 和 数组 

到 目前 为 止 ， 我们 见 到 的 变量 都 是 一 维 的 ， 这 是 因为 它们 只 有 长 度 而 没有 其 他 维度 。 数 组 
能 存放 多 维 算 形 数据 。“ 和 矩形 ”是 指 每 行 的 长 度 都 相等 ， 且 每 列 和 其 他 长 度 也 是 如 此 。 算 
阵 是 二 维 数组 的 特例 。 




















4.3.1 创建 数组 和 和 矩阵 


可 以 使 用 array 函数 创建 一 个 数组 ， 为 它们 传人 两 个 向 量 ( 值 和 维度 ) 作为 参数 。 另 外 ， 
你 也 可 以 为 每 个 维度 命名 





(three_d_array <- array( 
1:24, 
dim = c(4, 3, 2), 
dimnames = list( 
c("one", "two", "three", "four"), 
c("ein", "zwei", "drei"), 
c("un", "deux") 


) 
)) 
## , , un 
## 
#H ein zwei drei 
## one 1 5 9 
## two 2 6 10 
## three 3 7 11 
## four 4 8 12 
#H 
#H , , deux 
#H 
#H ein zwei drei 


## one 13 17 21 
## two 14 18 22 
## three 15 19 23 
## four 16 20 24 
class(three_d_array) 


## [1] "array" 


创建 矩阵 的 语法 非常 类 似 ， 但 无 需 传递 维度 dim 参数 ， 只 要 指定 行 数 或 列 数 即 可 : 








(a_matrix <- matrix( 
1:12, 
nrow = 4, #ncol = 3 也 是 同样 的 效果 
dimnames = list( 
c("one", "two", "three", "four"), 
c("ein", "zwei", "drei") 
) 
)) 








可 
二 
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## ein zwei drei 


##one 1 5 9 
##two 2 6 10 
##three 3 m M 
##four 4 8 12 


class(a_matrix) 


## [1] "matrix" 


该 矩阵 也 可 以 用 array ea Bok GE. PF ll = 4 Be Sl EA FEE CEE EA EK 


matrix) 完全 相等 : 


(two_d_array <- array( 
1:12; 
dim = c(4, 3), 
dimnames = list( 


c("one", "two", "three", "four"), 
c("ein", "zwei", "drei") 


) 
)) 
## ein zwei drei 
##one 1 5 9 
##two 2 6 10 
##three 3 7 121 
##four 4 8 12 


identical(two_d_array, a_matrix) 
## [1] TRUE 
class(two_d_array) 


## [1] "matrix" 
创建 矩阵 时 ， 传 和 的 值 会 按 列 填充 矩阵 。 也 可 指定 参数 byrow = TRUE 来 按 行 填充 和 矩阵: 


matrix( 
1:12; 
nrow = 4, 
byrow = TRUE, 
dimnames = list( 
c("one", "two", "three", "four"), 
c("ein", "zwei", "drei") 


) 
) 
## ein zwei drei 
##one 1 2 3 
##two 4 5 6 


##three 7 8 9 
##four 10 11 12 





4.3.2 行 、 列 和 维度 
对 于 箱 阵 和 数组 ，din 函数 将 返回 其 维度 的 整数 值 向 量 : 























dim(three_d_array) 
## [1] 432 
dim(a_matrix) 
## [1] 4 3 
对 于 矩阵， 函数 nrow 和 ncol 将 分 别 返 回 行 数 和 列 数 : 
nrow(a_matrix) 
## [1] 4 
ncol(a_matrix) 
## [1] 3 
nrow 和 ncol 也 能 用 于 数组 ， 分 别 返 回 第 一 和 第 二 个 维度 。 但 对 于 更 高 维度 的 对 象 ， 通 常 
最 好 使 用 dim 函数 : 
nrow(three_d_array) 
## [1] 4 
ncol(three_d_array) 
## [1] 3 
之 前 使 用 过 的 Length PACHA PARE AA, PERF, ERR Ie aE REAR AR 
length(three_d_array) 
## [1] 24 
length(a_matrix) 
## [1] 12 


还 可 通过 给 dim 国 数 分 配 一 个 新 的 维度 来 重 塑 矩阵 或 数组 。 不 过 请 小 心 使 用 ， 因 为 它 会 删 
除 原 维度 的 名 称 : 


dim(a_matrix) <- c(6, 2) 
a_matrix 


itt [,1] [.2] 
##[1,] 1 7 
##[2,] 2 8 
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##[3,] 3 9 
##[4,] 4 10 
##[5,] 5 11 
##[6,] 6 12 


把 nrow, ncol FU dim 用 于 向 量 时 将 返回 NULL 值 。 与 nrow 和 ncol 相对 的 国 数 是 NROW 和 
NCOL， 它 们 把 向 量 看 做 具有 单个 列 的 矩阵 (也 即 数学 意义 上 的 列 向 量 





Na 








identical(nrow(a_matrix), NROW(a_matrix)) 
## [1] TRUE 
identical(ncol(a_matrix), NCOL(a_matrix)) 
## [1] TRUE 


recaman <- c(0, 1, 3, 6, 2, 7, 13, 20) 
nrow(recaman) 

## NULL 

NROW(recaman) 

## [1] 8 

ncol(recaman) 

## NULL 

NCOL(recaman) 

## [1] 1 

dim(recaman) 


43.3 行 名 、 列 名 和 维度 名 


就 像 向 量 中 的 元 素 都 有 名 称 names 一 样 ， 和 矩阵 的 行 和 列 也 有 行 名 rownames 和 列 名 
colnames。 出 于 历史 的 原因 ， 还 有 一 个 row.names 函数 ， 它 的 作用 与 rownames 国 数 相同 。 
不 过 因为 没有 相应 的 col.names， 所 以 最 好 还 是 忽略 row.names， 而 只 使 用 rownames。 至 于 
nrow、ncol 和 dim 函数， 它们 对 应 于 数组 的 函数 是 dimnames。 后 者 将 返回 一 个 字符 向 量 列 
表 (参见 5.2 节 )。 在 以 下 的 代码 中 ，a_matrix 已 恢复 到 其 维度 被 改变 之 前 的 状态 ， 





rownames(a_matrix) 

## [1] "one" "two" "three" "four" 
colnames(a_matrix) 

## [1] "ein" "zwei" "drei" 


dimnames(a_matrix) 


## [[1]] 

## [1] "one" "two" "three" "four" 
## 

## [[2]] 

## [1] "ein" "zwei" "drei" 





rownames(three_d_array) 

## [1] "one" "two" "three" "four" 
colnames(three_d_array) 

## [1] "ein" "zwei" "drei" 
dimnames(three_d_array) 


## [[1]] 


## [1] "one" "two" "three" "four" 


## [[2]] 


## [1] "ein" "zwei" "drei" 


## [[3]] 
## [1] "un" "deux" 


4.3.4 索引 数组 


索引 数组 与 索引 向 量 类 似 ， 只 是 现在 要 索引 的 维度 多 于 一 个 。 和 之 前 一 样 ， 我 们 用 方 括号 
来 表示 索引 ， 且 仍 有 四 种 指定 索引 的 方法 〈 正 整数 、 负 整数 、 逻 辑 值 和 元 素 的 名 称 )。 在 
不 同 的 维度 上 用 不 同 的 方式 指定 索引 下 标 完 全 没 问题 。 每 个 维度 的 下 标 用 逗号 分 隔 : 














a_matrix[1, c("zwei", "drei")] # 在 第 一 行 、 第 二 列 和 第 三 列 的 两 个 元 素 
## zwei drei 
HH 5 9 
要 包括 所 有 维度 ， 则 只 需 置 空 相应 的 下 标 : 
a_matrix[1, ] # 第 一 行 的 所 有 元 素 


## ein zwei drei 
## 1 5 9 





a_matrix[, c("zwei", "drei")] # 第 二 列 、 第 三 列 的 所 有 元 素 


#H zwei drei 
## one 5 9 
## two 6 10 
## three 7 11 
## four 8 12 


4.3.5 ”合并 和 矩阵 
c 函数 能 在 拼接 矩阵 之 前 把 它们 转换 成 向 量 : 
(another_matrix <- matrix( 


seq.int(2, 24, 2), 
nrow = 4, 
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通过 


dimnames = list( 
c("five", "six", "seven", "eight"), 
c("vier", "funf", "sechs") 


) 
)) 
#H vier funf sechs 
## five 2 10 18 
## Six 4 12 20 


## seven 6 14 22 
## eight 8 16 24 


c(a_matrix, another_matrix) 


## [1] 1 2 3 4 5 6 7 8 9101112 2 4 6 8 1012 14 16 18 20 22 
## [24] 24 


使 用 cbind 和 rbind 函数 按 行 和 列 来 绑 定 两 个 矩阵 ， 能 更 自然 地 合并 它们 : 


cbind(a_matrix, another_matrix) 


#H ein zwei drei vier funf sechs 
## one 1 5 9 2 10 18 
## two 2 6 10 4 12 20 
## three 3 7 11 6 14 22 
## four 4 8 12 8 16 24 


rbind(a_matrix, another_matrix) 


## ein zwei drei 
## one 1 5 9 
## two 2 6 10 
## three 3 7 11 
## four 4 8 12 
## five 2 10 18 

## six 4 12 20 


## seven 6 14 22 
## eight 8 16 24 


4.3.6 ”数组 算术 


和 向 量 中 的 运算 一 样 ， 标 准 算术 运算 符 (+、- 、\*、/) 将 以 同样 的 方式 按 元 素来 处 更 


阵 和 数组 : 


a_matrix + another_matrix 


## ein zwei drei 
## one 3 15 27 
## two 6 18 30 


## three 9 21 33 
## four 12 24 36 

















ass 





a_matrix * another_matrix 


## ein zwei drei 
## one 2 50 162 
## two 8 72 200 


## three 18 98 242 
## four 32 128 288 


当 对 两 个 数组 执行 算术 运算 时 ， 须 确保 它们 的 大 小 适当 (以 线性 代数 的 术语 来 说 ， 它 们 必 
须 是 “一 致 的 ”)。 例 如 ， 两 个 数组 在 相 加 时 大 小 必须 相等 ， 而 和 矩阵 相 乘 时 第 一 个 矩阵 的 行 
数 必 须 和 第 二 矩阵 的 列 数 相 等 : 











(another_matrix <- matrix(1:12, nrow = 2)) 


a_matrix + another_matrix # 将 两 个 不 一 致 的 矩阵 相 加 会 抛 出 错误 


如 有 果 你 尝试 把 向 量 和 数组 相 加 ， 那 么 通常 的 向 量 循环 规则 是 适用 的 ， 但 结果 的 维度 只 取 自 
数组 。 


t 函数 用 于 转 置 矩阵 〈 但 不 能 转 置 更 高 维 的 数组 ， 其 中 的 概念 没有 被 明确 定义 ) : 








t(a_matrix) 


## one two three four 
## ein 1 2 3 4 
## zwei 5 6 7 8 


## drei 9 10 11 12 


对 于 和 矩阵 内 乘 和 外 乘 运算 ， 我 们 有 特殊 运算 符 %*% 和 %o%。 每 一 次 ， 如 果 维 度 的 名 称 存在 
的 话 ， 都 取 自 第 一 个 输入 : 


a_matrix %*% t(a_matrix) # 内 乘 


## one two three four 
## one 107 122 137 152 
## two 122 140 158 176 
## three 137 158 179 200 
## four 152 176 200 224 


1:3 %0% 4:6 # 外 乘 


tt [1] [.2] [.3] 
##[1,] 4 5 6 
##[2,] 8 10 12 
##[3,] 12 15 18 


outer(1:3, 4:6) # 结果 一 样 


## [etl [.2] [.3] 
##[1,] 4 5 6 
##[2,] 8 10 12 
##[3,] 12 15 18 





向 量 、 和 矩阵 和 数组 | 49 


因为 备 运 算 符 ^ 也 将 作用 于 和 矩阵 中 的 每 个 元 素 ， 所 以 在 为 矩阵 求 反 时 不 能 简单 地 为 矩阵 使 
用 负 一 次 方 运算 ， 而 应 使 用 solve PAB”: 





(m <- matrix(c(1, 0, 1, 5, -3, 1, 2, 4, 7), nrow = 3)) 


Ht [1] [,2] [.3] 
## [1] 1 5 2 
#t [2,] 0 -3 4 
##(3,] 1 1 了 


m^ -1 


HH [,1] [,2] [.3] 
## [1,] 1 0.2000 0.5000 
## [2,] Inf -0.3333 0.2500 
##[3,] 1 1.0000 0.1429 


(inverse_of_m <- solve(m)) 


Ht [1] [,2] [.3] 
## [1,] -25 -33 26 
## [2,] 4 5 -4 
#3] 3 4 3 


m %*% inverse_of_m 


HH [1] L321 [.3] 
##[1,] 1 0 0 
##[2,] 0 1 0 
##4[3,] 0 0 1 


4.4 ”小 结 


。 seq 函数 及 其 变种 可 创建 数字 序列 。 

。 向 量 有 长 度 ， 且 可 以 使 用 length 函数 取得 其 值 。 

。 可 以 在 创建 时 指定 向 量 元 素 的 名 称 ， 也 可 以 用 names 函数 指定 。 

。 你 可 以 通过 指定 方 括号 的 索引 值 来 访问 向 量 中 的 切片 。rep 函数 能 创建 重复 的 向 量 元 素 。 
© 数组 是 多 维 对 象 ， 和 矩阵 是 二 维 数组 的 特例 。 

e nrow、ncol 和 dim 函数 提供 了 访问 数组 维度 的 方法 。 

。 同样 地 ，rownames、colnames 和 dimnames 能 够 取得 数组 中 维度 的 名 称 。 


4.5 知识 测试 : 问题 
。 问题 4-1 
你 将 如 何 创 建 一 个 包含 值 0、0.25、0.5、0.75 和 1 的 向 量 ? 




















注 2: qr.solve(m) 和 chol2inv(chol(m)) 提供 了 另 一 种 矩阵 求 反 的 算法 ， 但 solve 函数 仍 应 是 首选 。 
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。 问题 4-2 

描述 两 种 命名 向 量 元 素 的 方式 。 

。 问题 4-3 

向 量 索 引 中 的 四 种 类 型 是 什么 ? 

。 问题 4-4 

一 个 3x4x5 的 数组 的 长 度 是 多 少 ? 





。 问题 4-5 
你 会 用 哪个 操作 符 来 执行 两 个 矩阵 的 内 积 ? 


4.6 知识 测试 : 练习 


。 练习 4-1 
第 n 个 三 角形 数 表示 为 n * (n + 1) / 2。 创 建 一 个 包含 前 20 个 三 角形 数 的 序列 。R 有 
一 个 内 置 常数 Letters， 它 包含 小 写 的 罗马 字母 。 使 用 前 20 个 英文 字母 来 给 你 刚刚 创 
建 的 向 量 命名 。 选 择 命 名 为 元 音 的 三 角 数 。[10] 


。 练习 4-2 
diag 国 数 有 几 种 用 途 ， 其 中 之 一 是 以 输入 向 量 作为 对 角 线 来 创建 一 个 方 阵 。 使 用 序列 
10 到 0 到 11 ( 即 11,10,…,1,0,1,…,11) 创建 一 个 21 x 21 的 矩阵 。[5] 











。 练习 4-3 
你 可 通过 给 diag 函数 传递 两 个 额外 的 参数 来 指定 输出 的 维度 。 创 建 一 个 主 对 角 线 元 素 
都 为 1 的 20 x21 SERA, 现在， 在 此 算 阵 之 上 加 一 行 全 零 元 素来 创建 一 个 21 x 21 的 方 
阵 ， 原 来 主 对 角 线 上 的 全 1 元 素 现在 全 体 向 下 偏 移 一 行 。 
创建 另 一 个 矩阵 ， 使 主 对 象 线 上 的 全 1 元 素 往 上 偏 移 一 行 。 
把 这 两 个 矩阵 相 加 ， 然 后 再 与 4-2 练习 中 的 答案 相 加 。 所 得 的 矩阵 被 称 为 Wilkinson 
矩阵。 
eigen 函数 计算 矩阵 的 特征 值 和 特征 向 量 。 计 算 Wilkinson 矩阵 的 特征 值 。 你 注意 到 了 
什么 吗 ? [20] 








=) 
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第 5 章 





列表 和 数据 框 


到 目前 为 止 ， 向 量 、 秆 阵 和 数组 所 包含 的 元 素 的 类 型 都 是 相同 的 。 列 表 和 数据 框 是 两 种 特 
殊 的 类 型 ， 允 许 我 们 把 不 同类 型 的 数据 合并 到 单一 变量 


5.1 本 章 目标 
阅读 本 章 后 ， 你 会 了 解 以 下 内 容 : 


。 如 何 创建 列表 和 数据 框 ， 

。 如 何 使 用 Length, names 和 其 他 函数 来 检查 和 操作 这 些 变 量 类 型 ， 
。 NULL 是 什么 ， 何 时 使 用 它 ， 

。 递归 变量 和 原子 变量 之 间 的 区 别 ; 

。 列表 和 数据 框 的 基本 操作 方法 。 


5.2 ”列表 


不 严格 地 说 ， 列 表 是 一 个 向 量 ， 其 中 每 个 元 素 的 类 型 可 以 不 同 。 本 市 谈 一 谈 如 何 创建 、 索 
引 和 操作 列表 。 





























5.2.1 创建 列表 


列表 由 List 函数 创建 ， 且 能 像 c 函数 那样 指定 内 容 。 你 只 需 简 单 地 用 逗号 分 隔 每 个 参数 即 
可 指定 列表 中 的 内 容 。 列 表 中 的 元 素 变量 的 类 型 不 限 , 可 以 是 向 量 、 和 矩阵 ， 甚 至 国 数 : 
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(a_list <- list( 
c(i; 14.25 Sy 14, 42); #See http://oeis.org/A000108 


month.abb, 
matrix(c(3, -8, 1, -3), nrow = 2), 
asin 
)) 
## [[1]] 
## [1] 1 1 2 5 14 42 
Be 
## [[2]] 
## [1] "Jan" "Feb" "Mar" "Apr" "May" "Jun" "Jul" "Aug" "Sep" "Oct" "Nov" 
## [12] "Dec" 
## 
## [[3]] 
## [,1] [,2] 


##[1,] 3 1 
拓 [2,] -8 -3 
Ht 

## [[4]] 


## function (x) .Primitive("asin" 
与 向 量 的 命名 类 似 ， 你 可 以 在 构造 列表 时 就 给 元 素 命 名 ， 或 在 构造 之 后 使 用 names 函数 


names(a_list) <- c("catalan", "months", "involutary", "arcsin" 
a_list 


## Scatalan 

## [1] 1 1 2 5 14 42 

## 

## Smonths 

## [1] "Jan" "Feb" "Mar" "Apr" "May" "Jun" "Jul" "Aug" "Sep" "Oct" "Nov" 
## [12] "Dec" 

Be 

## Sinvolutary 

Ht [,1] [.2] 

## [1,] 3 1 

## [2,] -8 -3 

## 

## Sarcsin 

## function (x) .Primitive("asin" 


(the_same_list <- list( 
catalan = (1 1; 2; Sx 14, 429; 
months = month.abb, 
involutary = matrix(c(3, -8, 1, -3), nrow = 2), 
arcsin = asin 


)) 


## $catalan 

## [1] 1 1 2 51442 

#H 

## Smonths 

## [1] "Jan" "Feb" "Mar" "Apr" "May" "Jun" "Jul" "Aug" "Sep" "Oct" "Nov" 


命 


名 : 
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## [12] "Dec" 


HH 
## Sinvolutary 
Ht [,1] [,2] 


##[1,] 3 1 
## [2,] -8 -3 


## Sarcsin 
## function (x) .Primitive("asin") 


尽管 这 并 非 是 强制 性 的 ， 但 你 在 给 元 素 命 名 时 最 好 使 用 有 效 的 变量 名 。 
你 其 至 可 以 把 列表 作为 一 个 列表 的 元 素 : 





(main_list <- list( 
middle_list = list( 
element_in_middle_list = diag(3), 
inner_list list( 
element_in_inner_list 
another_element_in_inner_list 
) 
)， 
element_in_main_list = Log10(1:10) 
)) 


pi ^ 1:4, 


a 


## Smiddle_list 
## Smiddle_listSelement_in_middle_List 


HH [.1] [.2] [.3] 
##[1,] 1 0 0 
##[2,] 0 1 0 
##(3,] 0 0 1 
HH 


## $middle_list$inner_list 
## $middle_list$inner_list$element_in_inner_list 
## [1] 3.142 


## $middle_list$inner_list$another_element_in_inner_list 
HH [1] wa" 


## S$element in main list 
## [1] 0.0000 0.3010 0.4771 0.6021 0.6990 0.7782 0.8451 0.9031 0.9542 1.0000 


MERE EYE, PRATLA— AFAR PA. KL, ~ARBWMAGAARKTLAA (确切 的 
数字 在 不 同 机 器 上 有 所 不 同 ) ， 当 前 版 本 的 R 会 抛 出 一 个 错误 。 幸 好 ， 在 现实 中 这 不 成 问 
题 ， 因 为 舱 套 超过 三 、 四 个 的 代码 已 是 极 少 见 了 


5.2.2 ”原子 变量 和 递归 变量 
由 于 列表 具有 这 种 把 其 他 列表 包含 在 内 的 能 力 ， 它 被 认为 是 递归 变量 。 与 之 相对 ， 向 量 、 
矩阵 和 数组 则 是 原子 变量 (变量 或 是 递归 的 ， 或 是 原子 的 ， 从 不 两 者 兼 具 。 附 录 A 的 表 解 
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邮 


释 了 哪些 变量 类 型 是 原子 的 ， 哪 些 是 递归 的 )。 函数 is. recursive 和 is.atomic 可 测试 它 


们 的 类 型 : 
is.atomic(list()) 
## [1] FALSE 
is.recursive(list()) 
## [1] TRUE 
is.atomic(numeric()) 
## [1] TRUE 
is.recursive(numeric()) 


## [1] FALSE 


5.2.3 列表 的 维度 和 算术 运算 


列表 与 向 量 一 样 也 有 长 度 ， 其 长 度 是 它 顶 层 元 素 的 数目 : 











Llength(a_list) 


## [1] 4 





length(main_list) # 不 包括 幅 套 列表 的 长 度 


## [1] 2 


仍 与 向 量 类 似 但 异 于 矩阵 的 是 ， 列 表 没 有 维度 。 因 此 ， 把 dim 函数 作用 于 列表 上 会 返 





dim(a_list) 


## NULL 








nrow, NROW 及 相应 的 列 函 数 作 用 于 列表 时 ， 与 作用 于 矢量 上 的 原理 基本 相同 : 


nrow(a_list) 
## NULL 
ncol(a_list) 
## NULL 
NROW(a_list) 
## [1] 4 
NCOL(a_list) 


## [1] 1 


[=] NULL: 
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与 向 量 不 同 的 是 ， 算 术 运 算 对 列表 不 起 作用 。 由 于 每 个 元 素 的 类 型 可 以 不 同 ， 将 两 个 列表 
相 加 或 相 乘 没 有 任何 意义 。 然 而 ， 如 果 两 个 列表 中 的 元 素 类 型 相同 ， 则 可 对 它们 进行 算术 
运算 。 在 这 种 情况 下 ， 一 般 的 算术 运算 法 都 适用 。 例 如 : 

















11 <- list(1:5) 

12 <- list(6:10) 

11[[1]] + 12[[1]] 

## [1] 7 9 11 13 15 
更 常见 的 是 ， 你 可 能 要 对 列表 中 的 每 一 个 元 素 执 行 算术 运算 (或 其 他 一 些 操作 )。 这 需要 
使 用 循环 ， 第 8 章 中 详细 介绍 。 


5.2.4 索引 列表 
考虑 这 个 测试 列表 : 





l <- list( 
first = 1, 
second = 2, 
third = list( 
alpha = 3.1, 
beta = 3.2 
) 
) 


与 向 量 类 似 ， 我 们 可 通过 方 括号 []、 正 或 负 的 下 标 数 字 、 元 素 名 称 或 逻辑 索引 这 四 种 方法 
访问 列表 中 的 元 素 。 以 下 四 行 代 码 的 结果 相同 : 


1L[1:2] 


## Sfirst 
## [1] 1 
## 

## Ssecond 
## [1] 2 


L[-3] 


## Sfirst 
## [1] 1 
## 

## Ssecond 
## [1] 2 


1l[c("first", "second")] 


## Sfirst 
## [1] 1 
## 

## Ssecond 
## [1] 2 
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L[cCTRUE，TRUE，FALSE)] 


## Sfirst 
## [1] 1 
#H 

## $second 
## [1] 2 

















这 些 索引 操作 的 结果 催生 了 另 一 个 列表 。 有 上 时， 我 们 要 访问 的 是 列表 元 素 中 的 内 容 。 有 两 
个 操作 符 能 帮助 我 们 做 到 这 一 点 : 可 给 双方 括号 [[ ]] 传人 正 整数 ， 它 代表 返回 的 索引 下 
标 ， 或 指定 该 元 素 的 名 称 字符 串 : 

1[[1]] 

## [1] 1 

LU["first"]] 


## [1] 1 





如 果 输 入 的 是 一 个 列表 ，is.List 函数 将 返回 TRUE, AMIR FALSE, EHEER, MELA 
下 两 个 索引 操作 符 : 

is. list(1[1]) 

## [1] TRUE 

is. list(1U[[1]]) 


## [1] FALSE 





对 于 列表 中 的 命名 元 素 ， 我 们 也 可 以 使 用 美元 符号 运算 符 $。 这 与 向 双方 括号 传人 一 个 命 
名 字符 串 的 工作 方式 几乎 一 样 ， 且 另 有 两 个 好 处 。 首 先 ， 许 多 DE 能 自动 补 全 名 字 (在 R 
的 GUI 下 ， 按 下 Tab 键 可 实现 此 功能 )。 其 次 ，R 能 接受 部 分 匹配 的 元 素 名 称 : 








LSsfirst 

## [1] 1 

LSf # 部 分 匹配 将 "f" 解释 为 "first" 
## [1] 1 


ERED BS A ERRER, RAP eae Ay i H ELE EME Bade : 
UL" third" ]]["beta"] 


## Sbeta 
## [1] 3.2 


UL" third" ]][["beta"]] 
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## [1] 3.2 
LUl[c("third", "beta")]] 


## [1] 3.2 


当 党 试 访问 不 存在 的 元 素 列表 时 ， 根 据 你 所 使 用 的 索引 类 型 ， 
中 ， 回 想 一 下 列表 1， 它 只 有 三 个 元 素 。 


如 果 我 们 使 用 单方 括号 的 索引 ， 那 么 将 返 
原 列表 有 名 字 的 话 )。 与 之 相 比 ， 对 于 一 个 无 效 的 向 量 





l[c(4, 2, 5)] 


## Ssecond 
## [1] 2 
## 

## $<NA> 
## NULL 


l[c("fourth", "second", "fifth")] 


## S<NA> 
## NULL 
## 

## Ssecond 
## [1] 2 


## NULL 





回 








行为 会 有 所 不 同 。 在 下 例 


只 带 一 个 NULL 元 素 的 列表 ( 且 名 称 为 NA， 如 




















索引 ， As 








返回 值 将 是 NA: 








无 论 是 以 双方 括号 还 是 美元 符号 来 访问 元 素 的 内 容 ， 如 果 名 字 错 误 ， 都 将 返回 NULL: 


LL["fourth"]] 
## NULL 


ls$fourth 


## NULL 


最 后 ， 如 果 以 错误 的 数字 索引 访问 元 素 内 容 ， 则 会 抛 出 一 个 错误 ， 说 明 下 标 越 界 。 对 于 这 
种 不 一 致 的 行为 ， 你 只 能 接受 ， 而 最 好 的 防范 措施 是 确保 在 使 用 前 对 索引 作 相 应 的 检查 : 





L[[4]] # 这 里 会 抛 出 一 个 错误 


5.2.5 ”向量 和 列表 之 间 的 转换 


向 量 可 使 用 函数 as. list 函数 来 转换 成 列表 。 所 创建 的 可 见 列表 与 向 量 中 元 素 的 值 一 一 对 应 : 
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busy_beaver <- c(1, 6, 21, 107) # 请 查看 http://oeis.org/A960843 
as. list(busy_beaver) 


## [[1]] 
## [1] 1 


## [[2]] 
## [1] 6 


## [[3]] 
## [1] 21 





## [[4]] 
## [1] 107 


如 果 列 表 中 每 个 元 素 都 是 标量 人 
等 ) 将 其 转换 成 向 量 : 








TI 


， 则 亦 可 使 用 之 前 出 现 过 的 函数 (as.numeric, as.character 














as.numeric(list(1, 6, 21, 107)) 
## [1] 1 6 21 107 


如 有 果 列 表 中 包含 非 标 量 元 素 ， 这 种 方法 将 不 起 作用 。 这 真 的 是 一 个 问题 ， 因 为 列表 既 能 存 
储 不 同类 型 的 数据 ， 也 能 存储 相同 类 型 的 数据 ， 但 后 者 不 是 存储 成 矩阵 的 形式 : 


(prime_factors <- list( two = 2, 


three = 3, 

four = c(2, 2), 
five = 5, 

Six =e(2, 3); 
seven = 7, 


eight = c(2, 2, 2), 
nine = c(3, 3), 
ten = c(2, 5) 


## Stwo 
## [1] 2 


## Sthree 
## [1] 3 


## $four 
## [1] 2 2 


## Sfive 
## [1] 5 


## Ssix 
## [1] 2 3 


## Sseven 
## [1] 7 








= 
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## Seight 
## [1] 2 2 2 
## 

## Snine 


## Sten 
## [1] 2 5 


对 于 这 样 的 列表 ， 可 用 unlist 函数 将 其 转换 为 何 量 (对 于 混合 类 型 的 列表 ， 有 时 技术 上 可 
行 ,但 没什么 用 ) : 





unlist(prime_factors) 


#H two three four1 four2 five sixl six2 seven eight1 eight2 
## 2 3 2 2 5 2 3 7 2 2 
## eight3 ninel nine2 teni ten2 
BS 2 3 3 2 5 


5.26 ”组合 列表 
c 函数 既 能 用 于 拼接 向 量 ， 亦 能 用 于 拼接 列表 : 


c(list(a = 1, b = 2), list(3)) 


如 果 我 们 用 它 来 拼接 列表 和 向 量 ， 向 量 在 拼接 之 前 将 被 转换 为 列表 (就 像 调 用 了 as. list 
国 数 ) : 
c(list(a = 1, b = 2), 3) 


## Sa 
## [1] 1 


HH Sb 
## [1] 2 


## [[3]] 
## [1] 3 

















亦 可 对 列表 使 用 cbind 和 rbind 函数 ， 但 结果 中 出 现 的 对 象 相 当 奇 茎 。 它 们 或 是 含有 可 能 
为 非 标量 元 素 的 和 矩阵， 或 是 有 维度 的 列表 ， 这 取决 于 你 看 它们 的 方式 : 
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(matrix_list_hybrid <- cbind( 
list(a = 1, b = 2), 
list(c = 3, list(d = 4)) 


str(matrix_list_hybrid) 


## List of 4 
Sk 
Sirs 
Sa 
5S :List of 1 


#H 
#H 
#H 
## 
## 
#H 
#H 
#H 
## 





=a 
=a 


num 1 
num 2 
num 3 


..$ d: num 4 


ttr(*, "dim")= int [1:2] 2 2 
ttr(*, "dimnames")=List of 2 


..$ : chr [1:2] "a" "b" 
..$ : NULL 


在 此 ， 你 应 避免 常用 cbind 和 rbind， 或 许 最 好 完全 不 用 它们 。 这 再 次 证 明 R 有 点 过 于 灵 
MBAS, SMEAR BACH MRR TE 























ey 


o 


5.3 NULL 
NULL 是 个 特殊 值 ， 它 表示 一 个 空 的 变量 。 它 最 常用 于 列表 中 ， 不 过 也 会 出 现在 数据 框 和 国 


数 参 数 








中 ， 


这 些 将 在 后 文中 讨论 。 
在 创建 列表 时 ， 你 可 能 会 想 指定 一 个 元 素 ， 表 明 它 必 须 存 在 但 没有 赋值 。 例 如 ， 下 表 按 月 


























份 列 出 了 英国 在 2013 年 的 银行 假期 "。 有 几 个 月 没有 公 假 日 ， 我 们 用 NULL 表示 : 





(uk_bank_holidays_2013 <- list( 


) 


Jan 
Feb 
Mar 
Apr 
May 
Jun 
Jul 
Aug 
Sep 
Oct 
Nov 
Dec 


) 


"New Year's Day", 

NULL, 

"Good Friday", 

"Easter Monday", 

c("Early May Bank Holiday", "Spring Bank Holiday"), 
NULL, 

NULL, 

"Summer Bank Holiday", 

NULL, 

NULL, 

NULL, 

c("Christmas Day", "Boxing Day") 








TE 1: 银行 假期 指 公众 假期 
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## SJan 

## [1] "New Year's Day" 
He 

## SFeb 

## NULL 

## 

## SMar 

## [1] "Good Friday" 

## 

## $Apr 

## [1] "Easter Monday" 
## 

## SMay 

## [1] "Early May Bank Holiday" "Spring Bank Holiday" 
Be 

## SJun 

## NULL 

## 

## $Jul 

## NULL 

He 

## SAug 

## [1] "Summer Bank Holiday" 
## 

## SSep 

## NULL 

Be 

## SOct 

## NULL 

## 

## SNov 

## NULL 

## 

## SDec 

## [1] "Christmas Day" "Boxing Day" 

















理解 NULL 和 特殊 的 缺失 值 NA 之 间 的 区 别 非 常 重要 。 最 大 的 区 别 是 ， 
NULL 不 会 占用 任何 空间 一 一 它 的 长 度 为 零 : 

Length(NULL) 

## [1] 0 

Length(NA) 

## [1] 1 





你 可 以 使 用 函数 is. null 测试 变量 是 否 为 NULL 值 。 缺 失 值 不 是 NULL: 
is.null (NULL) 


## [1] TRUE 








NA 22-74 

















is.null (NA) 


## [1] FALSE 


反 过 来 的 测试 没有 太 大 的 意义 。 





Ba 








为 NULL 的 长 度 为 零 ， 我 们 无 法 测试 它 是 否 是 缺失 的 : 





is.na(NULL) 


## Warning: is.na() applied to non-(list or vector) of type 'NULL' 
## Logical(0) 


NULL 也 可 用 于 删除 列表 中 的 元 素 。 把 元 素 设 置 为 NULL (即使 它 已 经 是 NULL) 则 会 删除 它 。 
假设 由 于 某 种 原因 ， 我 们 要 切换 到 一 个 老式 的 罗马 十 月 式 日 历 ， 它 没有 一 月 和 二 月 : 





uk_bank_holidays_2013$Jan <- NULL 
uk_bank_holidays_2013$Feb <- NULL 
uk_bank_holidays_2013 


## SMar 

## [1] "Good Friday" 

Be 

## SApr 

## [1] "Easter Monday" 

## 

## SMay 

## [1] "Early May Bank Holiday" "Spring Bank Holiday" 
Be 

## SJun 

## NULL 

## 

## SJul 

## NULL 

Be 

## SAug 

## [1] "Summer Bank Holiday" 
## 

## $Sep 

## NULL 

BH 

## S$Oct 

## NULL 

## 

## SNov 

## NULL 

Be 

## $Dec 

## [1] "Christmas Day" "Boxing Day" 


要 将 现 有 元 素 设置 为 NULL 值 ， 我 们 不 能 简单 地 为 其 分 配 NULL， 因 为 这 将 删 去 元 素 。 而 是 ， 
它 必 须 使 用 List(NULL) 来 设置 。 现 在 ,假设 英国 政府 取消 了 复 季 银 行 假期 : 





uk_bank_holidays_2013["Aug"] <- list(NULL) 
uk_bank_holidays_2013 
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## SMar 

## [1] "Good Friday" 

## 

## $Apr 

## [1] "Easter Monday" 

HH 

## SMay 

## [1] "Early May Bank Holiday" "Spring Bank Holiday" 


## SDec 
## [1] "Christmas Day" "Boxing Day" 


5.4 成 对 列表 


R 有 另外 一 种 形式 的 列表 : 成 对 列表 (Pairlists) 。 成 对 列表 只 厂 





E 内 部 使 用 ， 用 于 将 参数 传 


弟 到 函数 中 ,但 你 一 般 不 会 主动 使 用 到 它们 。 而 它 唯一 可 能 被 显 式 调用 的 情形 是 在 使 用 


formals 上 时。 该 函数 将 返回 一 个 函数 参数 的 成 对 列表 。 





在 使 用 帮助 页 面 查 找 标准 偏差 国 数 ?sd 时 ， 我 们 了 解 到 它 需要 两 个 参数 ， 向 量 x 和 逻辑 值 


na.rm， 后 者 的 默认 值 是 FALSE: 


(arguments_of_sd <- formals(sd)) 


## Sna.rm 





TE 2: R 在 其 基础 环境 中 ， 还 以 成 对 列表 的 变量 形式 存储 了 一 些 称 为 Options 的 全 局 设置 。 你 不 能 








问 这 个 变量 ， 而 须 使 用 option 函数 来 返回 其 列表 。 


I 





接 访 
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## [1] FALSE 
class(arguments_of_sd) 
## [1] "pairlist" 


在 实际 使 用 中 ， 成 对 列表 与 列表 几乎 一 样 。 唯 一 的 区 别 是 ， 长 度 为 零 的 成 对 列表 为 NULL， 
而 长 度 为 零 的 列表 是 一 个 空 列表 : 











pairlist() 
## NULL 
list() 


## List() 


5.5 ”数据 框 


数据 框 用 于 存储 类 似 电子 表格 的 数据 。 它 们 既 可 被 看 作 是 每 列 可 存储 不 同 数据 类 型 的 矩 
阵 ， 或 是 非 候 套 的 列表 ， 其 中 每 个 元 素 具 有 相同 的 长 度 。 





5.5.1 创建 数据 框 
我 们 用 data.frame 函数 创建 数据 


MI 





(a_data_frame <- data.frame( 
x = letters[1:5], 
y = rnorm(5)， 
z = runif(5) > 0.5 


)) 

## x y z 

## 1 a 0.17581 TRUE 

## 2 b 0.06894 TRUE 

## 3 c 0.74217 TRUE 

## 4 d 0.72816 TRUE 
e 


-0.28940 TRUE 
class(a_data_frame) 


## [1] "data.frame" 


请 注意 ， 每 列 的 类 型 可 与 其 他 列 不 同 ， 但 在 同一 列 中 的 元 素 类 型 必须 相同 。 还 要 注意 的 
是 ， 对 象 的 类 名 是 data.frane， 中 间 有 一 个 点 ， 而 非 空 字符 。 


在 此 例 中 ， 行 自动 从 一 到 五 编号 。 如 果 输 入 的 任何 向 量 有 名 称 ， 那 么 行 名 称 就 取 自 第 一 个 
向 量 名 称 。 例 如 ， 如 果 y 列 有 命名 ， 那 么 数据 框 中 每 行 的 名 字 将 以 y 列 的 向 量 名 命名 : 
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à 
| 


y 
na 
da 


) 


## 
## 
## 
## 
## 
## 


<- rnorm(5) 

mes(y) <- month.name[1:5] 
ta.frame( 

x = letters[1:5], 

y = Ys 

z = runif(5) > 0.5 


x y z 
January a -0.9373 FALSE 
February b 0.7314 TRUE 
March c -0.3030 TRUE 
April d -1.3307 FALSE 
May e -0.6857 FALSE 


这 种 命名 规则 可 通过 给 data. frame 国 数 传 入 参数 row.names = NULL 覆盖 掉 ; 


da 


另外 ， 


ta.frame( 
x = letters[1:5], 
y= ys 


z = runif(5) > 0.5, 
row.names = NULL 


y z 
-0.9373 FALSE 
0.7314 FALSE 
-0.3030 TRUE 
-1.3307 TRUE 
-0.6857 FALSE 


还 可 以 通过 给 row.names 传人 一 个 向 量 来 为 每 行 命名 。 这 个 向 量 将 被 转换 为 字符 


Ww 
MaN Tw x 


character， 如 果 它 不 是 此 类 型 的 话 : 


da 


) 


## 
HH 
## 
## 
## 
HH 


IERE 
地 » 也 


ta.frame( 
x = letters[1:5], 
y = y, 


z = runif(5) > 0.5, 
row.names = c("Jackie", "Tito", "Jermaine", "Marlon", "Michael") 


x y z 
Jackie a -0.9373 TRUE 
Tito b 0.7314 FALSE 
Jermaine c -0.3030 TRUE 
Marlon d -1.3307 FALSE 
Michael e -0.6857 FALSE 
一 样 行 的 名 称 可 通过 使 用 rownames (或 row.names) 在 后 期 进行 检索 或 更 改 。 同 样 
可 以 使 用 colnames 和 dimnames 来 分 别 获取 或 置 列 和 维度 的 名 称 。 事 实 上 ， 几 乎 所 





有 用 于 秆 阵 的 函数 亦 可 用 在 数据 框 上 。 例 如 ，nrow、ncol 和 dim 函数 的 使 用 与 矩阵 一 样 : 





rownames(a_data_frame) 


HH [1] i ki ee nqa "qa" 
colnames(a_data_frame) 
HH [1] Me my" da 


dimnames(a_data_frame) 


## [[1]] 

## [1] "2" "2" "3" "4" 
## 

## [[2]] 

## [1] "x" "y" "z" 


nrow(a_data_frame) 

## [1] 5 

ncol(a_data_frame) 

## [1] 3 

dim(a_data_frame) 

## [1] 5 3 
需 注意 两 个 奇怪 之 处 。 首 先 ， 
同样 地 ，names 将 返回 
数 ， 而 使 用 ncol 和 coLnames: 








Length(a_data_frame) 
## [1] 3 
names(a_data_frame) 


HH [1] myn "y" "z" 


可 以 使 用 不 同 长 度 的 向 量 来 创建 数据 框 


"g" 


"g" 





length 将 返回 与 ncol 相同 的 值 











口 


2 FN 


要 长 度 较 短 的 向 


E 46 


里 月 E 


， 而 不 是 数据 框 元 素 的 总 数 。 


与 coLnames 相同 的 值 。 为 了 使 代码 易于 理解 ， 建 议 你 避 开 这 两 个 国 


上 好 循环 至 总 长 度 。 从 技 


术 上 讲 ， 所 有 向 量 长 度 的 最 小 公 倍 数 必 须 与 最 长 向 量 的 长 度 相 等 


data. frame( 


# 长 度 1、2 和 4 是 Ok 的 


x = 1， # 循环 4 次 
y = 2:3， # 循环 2 次 
z = 4:7 # 最 长 的 输入 ， 不 需要 循环 
) 
#H xyz 
##1124 
##2135 
#3126 
##4137 





AX 





= 
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如 果 长 度 不 兼容 ， 将 引发 错误 : 


data.frame( # 长 度 1、2 和 3 将 导致 错误 
x = 1， # 最 小 公 倍 数 是 6， 比 3 大 
y= 223; 
Z 4:6 

) 











创建 数据 框 时 的 另 一 个 要 点 为 : 在 默认 情况 下 ， 列 名 必须 是 唯 














EE 可 通过 给 data.frame 传人 check.names = FALSE 来 关闭 : 


data.frame( 


"A column" = letters[1:5], 
"1 @#S$%8*()" = rnorm(5), 

MN ie = runif(5) > 0.5, 
check.names = FALSE 


) 


## A column !@#$%%8*() 
## 1 a 0.32940 TRUE 


## 2 b -1.81969 TRUE 
## 3 E 0.22951 FALSE 
## 4 d -0.06705 TRUE 
# 5 e -1.58005 TRUE 


ARU BEARERS AH A. R ES, 

















5.5.2 ”索引 数据 框 


有 很 多 种 不 同 的 方式 可 用 于 索引 数据 框 。 首 先 ， 与 矩阵 索引 的 方式 一 样 ， 


且 有 效 的 变量 名 称 。 此 功 





因为 一 旦 你 使 用 子 集 ， 
导致 难以 发 现 的 错误 。 另 外 ， 如 果 关 闭 列 名 检查 ， 你 将 陷于 险 境 。 





可 使 用 四 种 不 同 


的 向 量 索 引 〈 正 整数 、 负 整数 、 逻 辑 值 和 字符 )。 以 下 的 命令 将 选择 数据 框 中 前 两 列 的 第 


二 个 和 第 三 个 元 素 : 
a_data_frame[2:3，-3] 
## x y 
## 2 b 0.06894 
## 3 c 0.74217 
a_data_frame[c(FALSE, TRUE, TRUE, FALSE, FALSE), c("x", 
## x 


## 2 b 0.06894 
## 3 c 0.74217 


因为 选择 了 一 个 以 上 的 列 ， 所 以 得 到 的 子 集 也 是 一 个 数据 框 。 
将 被 简化 为 一 个 向 量 : 


class(a_data_frame[2:3, -3]) 








"y")] 








选择 一 个 列 ， 其 结果 
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## [1] "data.frame" 
class(a_data_frame[2:3, 1]) 


## [1] "factor" 


如 果 我 们 只 需 选择 一 个 列 ， 那 么 也 可 以 使 用 列表 样式 的 索引 〈 带 有 正 整数 或 名 称 的 双方 括 
F, 或 者 带 有 名 称 的 美元 符号 运算 符 )。 以 下 命令 将 选择 第 一 列 中 的 第 二 个 和 第 三 个 元 素 : 





a_data_frame$x[2:3] 


## [1] bc 
## Levels: abcde 


a_data_frame[[1]][2:3] 


## [1] bc 
## Levels: abcde 


a_data_frame[["x"]][2:3] 


## [1] bc 
## Levels: abcde 




















如 果 我 们 需要 给 列 加 上 条 件 来 得 到 一 个 数据 框 子 集 ， 使 用 的 语法 会 有 点 见长 ， 而 subset 


函数 能 做 同样 的 事情 且 更 简洁 。subset 需要 三 个 参数 : 一 个 数据 











EE， 一 个 行 的 条 件 逻 辑 


向 量 ， 以 及 一 个 需要 保留 的 名 字 向 量 (如 果 最 后 这 个 参数 被 省 略 了 ， 那 么 将 保留 所 有 列 )。 
subset 的 过 人 之 处 在 于 它 使 用 了 特殊 的 估算 技巧 ， 以 避免 多 余 的 操作 :你 无 需 输入 a 


data_framesy 以 访问 a_data_frame 的 第 y 列 ， 


下 例 中 ， 记 得 | 是 逻辑 或 操作 符 : 











大 








为 它 已 经 知道 要 看 哪个 数据 框 ， 所 以 你 只 
需 键入 y。 同 样 地 ， 选 择 列 时 ， 你 无 需 附 上 引号 中 列 的 名 称 ， 而 是 可 以 直接 键入 名 称 。 在 


a_data_frame[a_data_frameSy > 0 | a_data_frame$z, "x"] 


## [1] abcde 
## Levels: abcde 


subset(a_data_frame, y > 0 | z, x) 


BH x 
## 1 a 
## 2 b 
## 3 c 
## 4d 
## Se 


5.5.3 ”基本 数据 框 操作 








像 矩 阵 一 样 ， 数 据 框 可 使 用 t 函数 进行 转 置 。 但 在 此 过 程 中 ， 所 有 的 列 (它们 即将 变 成 行 ) 





a 
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将 被 转换 为 相同 的 类 型 ， 然 后 将 变 成 一 个 矩阵 : 


t(a_data_frame) 


# [1] [,2] [,3] [ ,4] [,5] 

#8 x "a" npn nen nan nen 

## y "0.17581" " 0.06894" " 0.74217" " 0.72816" "-0.28940" 
## z "TRUE" "TRUE" "TRUE" "TRUE" "TRUE" 

















如 果 两 个 数据 框 的 大 小 一 致 ， 也 可 使 用 cbind 和 rbind 把 它们 连接 (join) 起 来 。rbind 能 
智能 地 对 列 重 新 排序 以 匹配 。 然 而 ， 因 为 cbind 不 会 对 列 名 作 重 复 性 检查 ， 使 用 时 要 格外 


小 心 : 





another_data_frame <- data.frame( # 45 a_data_frame 有 相同 的 cols， 不 过 次 序 不 同 
z = rlnorm(5), # 对 数 分 布 的 数 
y = sample(5), # 1 到 5 随机 排列 的 数 
x = letters[3:7] 

) 

rbind(a_data_frame, another_data_frame) 

## x y z 

## 1 a 0.17581 1.0000 

## 2 b 0.06894 1.0000 

## 3 c 0.74217 1.0000 

## 4 d 0.72816 1.0000 

## 5 e -0.28940 1.0000 

## 6 c 1.00000 0.8714 

## 7 d 3.00000 0.2432 

## 8 e 5.00000 2.3498 

## 9 f 4.00000 2.0263 

## 10 g 2.00000 1.7145 


cbind(a_data_frame, another_data_frame) 


y z zy 
0.17581 TRUE 0.8714 1 
0.06894 TRUE 0.2432 3 
0.74217 TRUE 2.3498 4 
0.72816 TRUE 2.0263 5 

-0.28940 TRUE 1.7145 2 


当 两 个 数据 框 有 相同 的 列 时 ， 可 使 用 merge 函数 合并 。merge 为 数据 库 风格 的 连接 提供 了 
多 种 选择 。 当 要 连接 两 个 数据 框 时 ， 你 需要 指定 包含 键 值 的 列 以 作 匹 配 。 默 认 情 况 下 ， 
merge 国 数 会 使 用 两 个 数据 框 中 所 有 共同 的 列 ， 但 通常 你 会 想 用 一 个 共享 ID 列 。 在 下 例 
中 ， 我 们 将 通过 by 参数 指定 x 为 我 们 所 要 包含 的 ID: 


+ 

+ 

w 
mm DOn Co x 
oOo noan x 

















merge(a_data_frame, another_data_frame, by = "x") 


Vex? 925k z.y y.y 
0.7422 TRUE 0.8714 1 
0.7282 TRUE 0.2432 3 
0.2894 TRUE 2.3498 5 





merge(a_data_frame, another_data_frame, by = "x", all = TRUE) 


## x y.x Z.X z.y y.y 
## 1a 0.17581 TRUE NA NA 
## 2 b 0.06894 TRUE NA NA 
## 3 c 0.74217 TRUE 0.8714 1 
## 4 d 0.72816 TRUE 0.2432 

## 5 e -0.28940 TRUE 2.3498 5 
## 6 f NA NA 2.0263 4 


如 果 数 据 框 中 只 包含 数值 ， 那 么 colSums 和 colmeans 国 数 可 分 别 用 于 计算 每 列 的 总 和 和 平 
均值 。 同 样 地 ，rowSums 和 rowMeans 将 计算 每 一 行 的 总 和 及 平均 值 : 








colSums(a_data_frame[, 2:3]) 


Be y z 
## 1.426 5.000 


colMeans(a_data_frame[, 2:3]) 


Be y Z 
## 0.2851 1.0000 


操作 数据 框 是 一 个 很 大 的 话题 ， 我 们 将 在 第 13 章 深入 探讨 。 





5.6 ”小结 


。 列表 中 的 每 个 元 素 中 可 包含 大 小 和 类 型 都 不 同 的 变量 。 

。 列表 是 递归 变量 ， 因 为 它 可 以 包含 其 他 列表 。 

。 使 用 [ ]、[[ ]] 或 $ 来 索引 列表 。 

。 NULL 是 特殊 值 ， 用 于 创建 “ 空 ”的 列表 元 素 。 

。 数据 框 能 存储 类 似 电 子 表格 的 数据 。 

。 BEA ERR LEME (ARIA) 和 列表 (不 同 的 列 可 以 包含 不 同类 型 的 变量 ) 的 属性 。 
。 数据 框 可 以 被 索引 ， 正 如 和 矩阵 或 列表 一 样 。 

。 merge 能 让 上 你 对 数据 框 进行 类 似 数据 库 风 格 的 连接 操作 。 


5.7 ”知识 测试 : 问题 
。 问题 5-1 
以 下 列表 的 长 度 是 多 少 ? 








list(alpha = 1, list(beta = 2, gamma = 3, delta = 4), eta = NULL) 


## Salpha 
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a 


## [1] 1 


## [[2]] 
## [[2]]Sbeta 
## [1] 2 


## [[2]]Sgamma 
## [1] 3 





## [[2]]Sdelta 
## [1] 4 


## Seta 

## NULL 

问题 5-2 

你 会 在 哪里 找到 成 对 列表 ? 

问题 5-3 

尽 可 能 多 地 说 出 的 几 种 创建 数据 框 子 集 的 方法 。 

问题 5-4 

如 何 创建 一 个 数据 框 ， 使 得 它 的 列 名 既 非 唯一 又 非 有 效 ? 
问题 5-5 


你 会 使 用 哪个 函数 将 一 个 数据 框 妃 加 到 另 一 个 之 后 ? 
































5.8 知识 测试 : 练习 


练习 5-1 

创建 一 个 列表 变量 ， 它 的 第 一 个 元 素 包 含 所 有 从 0 到 9 的 平方 数 ， 第 二 个 元 素 为 10 至 
19 之 内 的 所 有 平方 数 ， 依 此 类 推 ， 最 后 一 个 元 素 为 90 到 99 之 内 的 平方 数 。 不 是 平方 
数 的 元 素 也 应 该 被 包含 在 内 ! [10] 

练习 5-2 

R 有 几 个 内 置 的 数据 集 ， 其 中 包括 著名 的 *、 由 安德森 和 费 铭 尔 在 20 世纪 30 年 代 收 集 
和 分 析 的 iris ( 指 音 尾 花 ， 而 不 是 虹膜 ) 数据 。 输 入 iris 即 可 看 到 数据 集 。 创 建 一 个 新 
的 数据 框 ， 它 由 iris 数据 集 的 数值 列 组 成 ， 计 算 各 列 的 平均 值 。[5] 

练习 5-3 

beaver1 和 beaver2 数据 集 包 含 两 个 海 狸 的 体温 数据 。 为 beaver1 数据 集 添 加 一 列 名 为 
id 的 列 ， 其 值 侈 部 为 1。 同样 ， 也 为 beaver2 添加 一 个 id 列 ， 值 全 为 2。 垂直 拼接 两 个 
数据 框 ， 并 且 找 到 所 有 活跃 着 的 海 狸 的 子 集 。[10] 




















注 3: 根据 一 些 “ 著 名 ”的 定义 。 





72 


| 第 5 章 


BOs 


环境 和 函数 





sy 经 尝试 了 及 中 的 多 种 函数 。 在 本 章 中 ， 你 将 了 解 函 数 是 什么 ， 以 及 如 何 编 写 你 自己 
函数 。 在 此 之 前 ， 先 来 看 看 用 于 存储 变量 的 环境 。 


6.1 本 章 目 标 
阅读 本 章 后 ， 你 会 了 解 以 下 内 容 : 


。 环境 是 什么 ， 如 何 创建 它 ， 

。 如 何 创 建 、 访 问 和 列 出 环境 内 的 变量 ， 
。 函数 的 各 个 组 成 部 分 ， 

。 编写 自己 的 函数 ， 

。 变量 的 作用 域 。 


6.2 环境 


我 们 所 创建 的 所 有 变量 都 需要 存储 在 某 处 ， 即 环境 。 环 境 本 身 也 是 另 一 种 类 型 的 变量 ,我 
们 可 以 像 对 待 其 他 变量 一 样 随意 地 分 配 和 操作 它们 ， 并 将 其 以 参数 的 形式 传递 到 函数 中 。 
它们 与 列表 密切 相关 ， 也 能 用 于 存储 不 同类 型 的 变量 。 事 实 上 ， 大 部 分 用 于 列表 的 语法 也 
同样 适用 于 环境 ， 而 且 我 们 也 可 以 强制 地 把 列表 强制 当 作 环 境 使 用 (反之 亦 然 )。 

通常 情况 下 ， 你 不 需要 直接 与 环境 打交道 。 例 如 ， 你 在 命令 提示 符 下 分 配 一 个 变量 ， 它 会 


自动 进入 全 局 环境 (也 称 为 用 户 工作 区 ) 中 。 当 你 调用 函数 时 ， 将 会 自动 创建 一 个 环境 ， 
用 于 存储 与 此 函数 相关 的 变量 。 不 过 ， 当 你 要 了 人 解 变 量 的 作用 域 或 调试 代码 以 检查 调用 栈 
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时 ， 擎 担 环境 的 一 些 基础 知识 将 有 所 帮助 。 


有 些 烦 人 的 是 ， 环 境 的 创建 不 是 使 用 environment 函数 (该 函数 将 返回 包含 的 特定 函数 的 
环境 ) ， 而 是 使 用 new.env 函数 : 





an_environment<-new.env() 


向 环境 中 分 配 变量 的 方式 与 列表 完全 相同 。 可 以 使 用 双方 括号 或 美元 符号 运算 符 。 和 列表 
一 样 ， 环 境 变 量 的 类 型 和 大 小 可 以 不 同 : 








an_environment[["pythag"]]<-c(12, 15, 20, 21) # 请 查看 http://oeis.org/A156683 
an_environment$root<-polyroot(c(6, -5, 1)) 


2.3 市 中 见 到 assign 函数 还 有 一 个 可 选 的 环境 参数 ， 用 于 指定 变量 的 存储 位 置 : 


assign( 
"moonday", 
weekdays(as.Date("1969/07/20")), 
an_environment 


) 
检索 变量 的 方式 也 是 如 此 : 你 可 以 使 用 列表 的 索引 语法 ， 或 assign 的 对 立国 数 get: 
an_environment[["pythag"]] 
## [1] 12 15 20 21 
an_environment$root 
## [1] 2+0i 3-01 
get(""moonday", an_environment) 


## [1] "Sunday" 


可 以 把 环境 参数 传人 ls 和 ls.str 函数 中 ， 列 出 它 的 所 有 内 容 : 





ls(envir = an_environment) 


## [1] "moonday" "pythag" "root" 
ls.str(envir = an_environment) 
## moonday: chr "Sunday" 

## pythag: num [1:4] 12 15 20 21 
## root: cplx [1:2] 2+0i 3-0i 


可 用 exists 函数 测试 变量 是 否 在 环境 中 : 





exists("pythag", an_environment) 


## [1] TRUE 
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很 明显 ， 使 用 as.list 和 as. environment 函数 能 分 别 实现 从 环境 到 列表 或 相反 过 程 的 转 
换 。 在 后 一 种 情况 中 ， 还 可 以 使 用 List2env 函数 ， 它 在 创建 环境 时 更 为 灵活 : 








# 转换 为 列表 


(a_list<-as.list(an_environment)) 


ral 


## Spythag 

## [1] 12 15 20 21 
## 

## Smoonday 

## [1] "Sunday" 

#H 

## Sroot 

## [1] 2+0i 3-0i 


# 再 转换 回来 。 以 下 两 行 代码 的 效果 一 样 。 


as.environment(a_list) 





## <environment: 0x000000004a6fe290> 
list2env(a_list) 
## <environment: 0x000000004ad10288> 
所 有 的 环境 都 是 租 套 的 ， 这 意味 着 它们 必须 有 一 个 父 环 境 (除了 位 于 顶端 的 特殊 环境 一 一 


空 环境 以 外 )。 默 认 情 况 下 ，exists 和 get 函数 也 将 在 父 环境 中 寻找 变量 。 可 通过 给 它们 
传人 inherits = FALSE 来 改变 这 种 行为 ， 使 它们 仪 在 指定 的 环境 中 搜索 : 








nested_environment<-new.env(parent=an_environment) 
exists("pythag", nested_environment) 


## [1] TRUE 
exists("pythag", nested_environment, inherits=FALSE) 


## [1] FALSE 


Va 
“HE” (frame) 这 个 词 几乎 可 以 与 境 ” 互 换 〈 要 想 了 解 此 术语 ， 请 参考 
N 。 随 R 附 带 的 语言 定义 手册 2.1.10 节 )。 这 意味 着 工作 环境 中 的 一 些 国 数 名 称 
”里 可 能 有 “frame”， 最 常见 的 是 ates 











下 列 快捷 函数 可 以 同时 访问 全 局 环境 CABLE A ct he As FP SD BTS 8 EAE TA) 
基础 环境 (那些 R 基础 包 中 自 带 的 基础 函数 和 变量 ) : 


non_stormers<<-c(3, 7, 8, 13, 17, 18, 21) # 参见 http://oeis.org/A002312 
get("non_stormers", envir=globalenv()) 


## [1] 3 7 8 13 17 18 21 


head(ls(envir=baseenv()), 20) 
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## [1] "=" "a Date" "- .POSIXt" 


## [4] "!" "!.hexmode" "! octmode" 
## [7] "!=" "g. "$.data.frame" 
## [10] "$.DLLInfo" "$.package_version" "$<-" 

## [13] "$<-.data.frame" "%%" "%*%" 

## [16] "%/%" "%in%" "%0%" 

## [19] "%x%" "g" 


FEF PARA OL PREBE. TE, AARAA, RTEA A E a De FF 
在 属于 该 函数 的 环境 中 (RR HOA SEA IT E), FU, BIT, LP RBC 
存储 于 其 搜索 路 径 的 环境 中 。 这 将 在 第 10 章 中 讨论 。 


6.3 AŽ 


大 多 数 的 变量 类 型 仅 用 于 存储 数据 ， 而 函数 能 够 让 我 们 和 数据 一 起 工作 ， 它 们 是 “动词 ” 
而 非 “ 名 词 ”“。 和 环境 类 似 ， 它 们 只 是 另 一 种 数据 类 型 ， 我 们 可 以 分 配 、 操 纵 ， 甚 至 将 它 
传递 给 其 他 函数 的 数据 类 型 。 


6.3.1 创建 和 调用 函数 
为 了 更 好 地 了 人 解 函数 ， 我 们 来 看 看 它 的 组 成 。 


键入 一 个 函数 的 名 称 ， 将 显示 其 运行 的 代码 。 以 下 是 rt 函数 ， 该 函数 将 生成 基于 工分 布 
的 随机 数 : 


rt 








## function (n, df, ncp) 


## { 

#H if (missing(ncp)) 

#H .External(C_rt, n, df) 

#H else rnorm(n, ncp)/sqrt(rchisq(n, df)/df) 
## } 


## <bytecode: 0x0000000019738e10> 

## <environment: namespace:stats> 
如 你 所 见 ，rt 需要 三 个 输入 参数 : n 是 要 产生 的 随机 数 的 数目 ，df 是 自由 度 值 ，ncp 是 
一 个 可 选 的 非 中 心 参数 。 从 技术 上 来 说 ， 三 个 参数 n、df 和 ncp 是 rt 函数 的 形式 参数 
(formal argument) 。 当 你 调用 该 函数 并 给 它 传递 值 时 ， 这 些 值 被 称 为 参数 。 


Va 








参数 和 形式 参数 之 间 的 差异 不 是 很 重要 ， 因 此 接 下 来 本 书 没有 区 分 这 两 个 
a. Ba. 
ASN 








p oy 


TE 1: 如 果 定 义 是 类 似 于 UseMethod ("my_function") 或 standardGeneric ("my_function") 的 一 行内 容 ， 请 
参阅 16.7 节 。 如 果 R 抱怨 找 不 到 对 象 ， 尝 试 getAnywhere (my_function), 





76 | 第 6 章 


在 大 括号 之 间 ， 你 可 以 看 到 函数 体内 代码 行 。 它 们 就 是 每 次 调用 rt 时 要 执行 的 代码 。 


请 注意 ， 这 里 有 没有 显 式 的 “return” 关 键 字 声明 应 该 从 函数 返回 哪个 值 。 在 R 中 ， 函 数 中 
计算 的 最 后 一 个 值 将 自动 返回 。 以 rt 为 例 ， 如 果 ncp 参数 被 省 略 ， 将 会 调用 C 代码 生成 随 
机 数 并 人 返回。 否则 ， 该 函数 会 调用 rnorm、rchisq 和 sqrt 国 数 计算 并 返回 值 。 


要 创建 我 们 自己 的 函数 ， 只 需 像 其 他 任何 变量 一 样 为 它 赋 值 。 举 一 个 例子 ， 创 建 一 个 函数 
来 计算 直角 三 角形 斜 边 的 长 度 (为 简单 起 见 ， 我 们 将 使 用 一 般 的 算法 。 但 不 要 在 实际 项 目 
中 使 用 这 些 代码 ， 因 为 它们 在 数字 很 大 或 很 小 时 ， 这 种 算法 并 不 适用 ) : 

















hypotenuse <- function(x, y) 


{ 
sqrt(x *2+y ^2) 
} 


XE, hypotenuse 是 我 们 正在 创建 的 函数 ，x My 是 它 的 参数 ( 形 参 )， 在 大 括号 中 的 内 容 
是 函数 体 。 


事实 上 ， 因 为 函数 体 只 有 一 行 代 码 ， 可 省 略 大 括号 : 


In! 








hypotenuse <- function(x, y) sqrt(x *2+y% 2) # 和 之 前 一 样 


R 对 于 代码 如 何 使 用 空白 符 很 宽容 ， 所 以 “一 行 代码 ”可 以 延伸 到 多 行 。 没 
N 。 有 使 用 大 括号 的 大 量 代码 也 是 一 条 语句 〈statement) 。 语 句 的 确切 定义 涉及 技 
导 ， 术 术语 ， 但 从 实用 角度 看 ， 它 就 是 在 执行 前 你 可 在 命令 行 中 键入 的 代码 量 。 

















现在 ， 可 以 使 用 以 下 任意 一 种 方式 来 调用 这 个 函数 : 





hypotenuse(3, 4) 

## [1] 5 

hypotenuse(y = 24, x = 7) 
## [1] 25 


当 我 们 调用 函数 时 ， 如 果 不 命 名 参数 ， 则 R 将 按 位 置 匹配 它们 。 以 hypotenuse(3, 4) 为 
Gil: 3 是 第 一 个 参数 ， 因 此 它 对 应 x; 4 是 第 二 个 参数 ， 因 此 它 对 应 y。 


























如 果 要 改变 我 们 传递 参数 的 顺序 ， 或 省 略 其 中 一 些 ， 则 可 传人 命名 参数 。 以 hypotenuse(y 
= 24，x = 7) 为 例 ， 虽 然 传 递 变 量 的 顺序 是 “错误 ”的 ,但 R 仍 能 正确 地 判断 出 哪个 变量 
应 被 映射 到 x， 哪 个 应 被 映射 到 y。 


























它 对 于 计算 斜 边 的 函数 来 说 意义 不 大 ， 但 如 果 有 和 需要， 我 们 可 以 给 x 和 y 提供 默认 值 。 在 
以 下 新 版 本 的 代码 中 ， 如 果 我 们 不 给 函数 传递 任何 值 ， 则 x 会 取 默 认 值 5， 而 y 会 取 12: 





环境 和 函数 | 77 


hypotenuse <- function(x = 5, y = 12) 


{ 
sqrt(x ^2 + y ^2) 
} 
hypotenuse() # $ hypotenuse(5, 12) 相等 
## [1] 13 


我 们 已 经 见 到 过 formals 国 数 ， 它 能 取得 国 数 的 参数 并 返回 一 个 〈 结 对 ) 列表 。args 函数 
也 能 做 相同 的 事 ， 看 上 去 更 加 可 读 但 编程 风格 不 太 友好 。formatLArgs 函数 将 返回 参数 名 称 
的 字符 向 量 : 





formals(hypotenuse) 


## Sy 
## [1] 12 


args(hypotenuse) 


## function (x = 5, y = 12) 
## NULL 


formalArgs (hypotenuse) 


## [1] "x" "y" 


body 函数 可 用 于 返回 函数 体 。 单 独 地 ， 它 不 太 有 用 。 但 有 时 我 们 需要 以 文本 的 方式 检查 它 
们 ， 例 如 要 查找 一 个 调用 了 另 一 函数 的 函数 。 对 此 ， 可 以 使 用 deparse 函数 : 


(body_of_hypotenuse <- body(hypotenuse)) 
## { 

## sqrt(x^2 + y^2) 

## } 

deparse(body_of_hypotenuse) 


## [1] "{" K sqrt(x^2 + y^2)" "}" 











国 数 形 参 的 默认 值 不 仅仅 是 常数 值 ， 我 们 还 可 以 把 任何 及 代码 放 进 去 ， 甚 至 使 用 其 他 形 


EB 


Zo 





下 面 的 normalize 函数 将 缩放 一 个 向 量 。 默 认 情 况 下 ， 参 数 m 和 s 是 第 一 个 参数 的 平 


均值 和 标准 偏差 ， 所 以 返回 的 向 量 将 包含 均值 0 和 标准 偏差 1: 





normalize <- function(x, m = mean(x), s = sd(x)) 


x-m)/s 
} 
Normalized <- normalize(c(1, 3, 6, 10, 15)) 
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mean(normalized) # 几乎 是 0! 
## [1] -5.573e-18 
sd(normalized) 

## [1] 1 


Ait, normalize 国 数 有 一 个 小 问题 ， 如 果 x 的 某 些 元 素 没 有 给 出 ， 我 们 将 看 到 : 

















normalize(c(1, 3, 6, 10, NA)) 


## [1] NA NA NA NA NA 





如 果 向 量 的 所 有 元 素 都 没有 给 出 ， 那 么 在 默认 情况 下 ，mean 和 sd 都 将 返回 NA。 因此， 
normalize 国 数 的 返回 值 中 的 所 有 元 素 都 是 NA 值 。 如 果 有 这 样 的 选项 : 只 有 输入 值 是 NA 时 
才 返 回 NA， 那 可 能 更 好 。mean 和 sd 都 有 一 个 参数 na.rm， 它 能 让 我 们 删除 计算 之 前 的 任 
何 缺 失 值 。 为 了 避免 所 有 的 NA 值 ， 我 们 可 以 在 normalize 中 包含 这 个 参数 : 




















Normalize <- function(x, m = mean(x, na.rm=na.rm), 
s=sd(x, na.rm=na.rm), na.rm=FALSE) 

{ 
(x - m) /s 


Normalize(c(1, 3, 6, 10, NA)) 
## [1] NA NA NA NA NA 
nNormalize(c(1, 3, 6, 10, NA), na.rm=TRUE) 


## [1] -1.0215 -0.5108 0.2554 1.2769 NA 


此 方法 可 行 ， 但 语法 有 点 笨拙 。 为 了 避免 输入 那些 实际 上 没有 被 函数 用 到 的 参数 名 (na.rm 
只 被 传递 到 mean 和 sd 中 )，R 提供 了 一 个 特殊 参数 ...， 它 包含 了 所 有 不 能 被 位 置 或 名 称 
匹配 的 参数 : 





normalize<-function(x, m=mean(x, ...), s=sd(x, ...), ...) 
{ 
(x-m)/s 
} 
Normalize(c(1, 3, 6, 10, NA)) 
## [1] NA NA NA NA NA 
nNormalize(c(1, 3, 6, 10, NA), na.rm=TRUE) 
## [1] -1.0215 -0.5108 0.2554 1.2769 NA 


现在 ， 在 normalize(c(1, 3, 6, 10, NA), na.rm=TRUE) 的 调用 里 ， 参 数 na.rm 并 不 能 匹 
配 normalize 的 任何 形 参 ， 因 为 它 不 是 x、m 或 s。 这 意味 着 它 被 存储 在 normalize WE 
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Be... 里 。 当 我 们 评估 m 时 ， 表 达 式 mean(x, ...) 现在 为 mean(x，na.rm=TRUE) 。 


如 果 你 对 此 还 不 太 清 楚 ， 不 用 担心 。 大 多 数 时 候 ， 它 的 工作 原理 是 一 个 我 们 无 需 操 心 的 高 
级 话题 。 当 下 ， 你 只 需 了 解 .…. 能 将 参数 传递 给 子 函 数 。 


6.3.2 ” 回 其 他 函数 传递 和 接收 函数 

函数 可 以 像 其 他 变量 类 型 一 样 地 使 用 ， 我 们 可 将 之 作为 其 他 函数 的 参数 ， 并 且 从 函数 中 返 
回 。 一 个 常见 的 ， 把 其 他 函数 当成 参数 的 例子 是 do.catL。 此 函数 提供 了 一 种 调用 其 他 了 
数 的 替代 语法 ， 让 我 们 可 以 像 列 表 一 样 传递 参数 ， 而 不 是 逐次 传递 























do.call(hypotenuse, list(x = 3, y = 4)) # 和 hypotenuse(3, 4) 一 样 
## [1] 5 


也 许 最 常见 的 案例 为 do.call 与 rbind 混用 。 你 可 以 结合 这 两 个 国 数 ， 你 可 以 一 次 拼接 多 
个 数据 框 或 矩阵 : 


dfr1 <- data.frame(X 
dfr2 <- data.frame(x = 6:10, y = rf(5, 1, 1)) 

dfr3 <- data.frame(x = 11:15, y = rbeta(5, 1, 1)) 

do.call(rbind, list(dfri, dfr2, dfr3)) # Fllrbind(dfri, dfr2, dfr3) 一 样 


1353. Ve Tt(5 1)) 


## X y 
## 1 1 1.10440 
## 2 2 0.87931 
## 3 3 -1.18288 
## 4 4 -1.04847 
## 5 5 0.90335 
##6 6 0.27186 
## 7 7 2.49953 
## 8 8 0.89534 
## 9 9 4.21537 
## 10 10 0.07751 
## 11 11 0.31153 
## 12 12 0.29114 
## 13 13 0.01079 
## 14 14 0.97188 
## 15 15 0.53498 











花 一 些 时 间 去 习惯 这 种 用 法 是 值得 的 。 第 9 章 将 大 量 使 用 apply 及 其 衍生 函数 ， 把 函数 传 
递 到 其 他 函数 中 。 


把 函数 用 作 参 数 时 ， 没 必要 一 开始 就 为 它们 赋值 。 以 同样 的 方式 将 以 下 函数 : 

















menage <- c(1, 0, 0, 1, 2, 13, 80) # Æ% http://oeis.org/A000179 
mean(menage) 


## [1] 13.86 
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简化 为 : 


mean(c(1, 0, 0, 1, 2, 13, 80)) 


## [1] 13.86 


我 们 还 可 以 以 匿名 方式 传递 国 数 : 


x_plus_y <- function(x, y) x + y 
do.call(x_plus_y, list(1:5, 5:1)) 


## [1] 66666 


# 与 下 相同 


do.call(function(x, y) x + y, list(1:5, 5:1)) 


## [1] 66666 


返 
国 数 ， 如 图 6-1 所 示 : 


回 值 为 函数 的 情况 比较 罕见 ， 但 它 是 有 效 的 。ecdf 函数 将 返回 一 个 向 量 的 经 验 累 积分 布 





ecdf(rnorm(50)) 





1.0 


Fn(x) 
0.6 


0.4 





0.0 
9 

















图 6-1: 经 验 累积 分 布 函 数 
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(emp_cum dist fn <- ecdf(rnorm(50))) 


## Empirical CDF 
## Call: ecdf(rnorm(50)) 
## = x[1:50] = -2.2, -2.1, -2, ..., 1.9, 2.6 


is. function(emp_cum_dist_fn) 
## [1] TRUE 


plot(emp_cum_dist_fn) 


6.3.3 变量 的 作用 域 


变量 的 作用 域 是 指 你 在 哪里 可 以 看 到 此 变量 。 例 如 ， 当 你 在 函数 内 部 定义 一 个 变量 时 ， 该 
函数 中 下 面 的 语句 将 能 访问 到 该 变量 。 在 R (但 不 是 S) 中 ， 子 函数 也 能 访问 到 这 个 变量 。 
在 下 例 中 ， 函 数 f 的 参数 为 x， 且 它 将 被 传递 给 函数 g。f 还 定义 了 一 个 变量 y， 它 的 作用 
域 在 函数 g 的 范围 内 ， 这 是 由 于 g 是 f 的 子 函数 。 因 此 ， 即 使 没有 在 g 里 定义 y， 下 例 也 
能 工作 : 




















f <- function(x) 


























{ 

y<-1 

g <- function(x) 

{ 

(x+y) /2 ay 被 使 用 了 ， 但 它 不 是 g 的 形式 参数 

} 

g(x) 
} 
f(sqrt(5)) # 这 也 能 工作 ! 它 神奇 地 在 环境 Ff 里 找到 了 y 
## [1] 1.618 





如 果 我 们 修改 例子 ， 把 g 定义 在 f 以 外 ,使 g 不 是 f 的 子 函 数 ， 那 么 例子 将 抛 出 一 个 错误 ， 
因为 R 找 不 到 y: 


f <- function(x) 
{ 

y <- 1 

g(x) 
g <- function(x) 


{ 
(x+y) / 2 


f(sqrt(5)) 


## January February March April May 
Be 0.6494 1.4838 0.9665 0.4527 0.7752 


在 6.2 市 中 ，get 和 exists 函数 在 其 父 环境 和 当前 环境 下 搜索 变量 。 变 量 作用 域 的 工作 方 
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式 与 此 完全 相同 : R 将 试图 在 当 
境 中 搜索 ， 然 后 再 在 该 环境 的 父 
中 定义 的 变 


在 第 一 个 例子 中 ， 
是 全 局 环境 ， 














f 的 环境 是 g 











变量 可 在 父 
以 维护 的 代码 。 考 虑 下 面 的 函数 h: 


h <- function(x) 





{ 
xe y 
} 
这 看 起 来 不 能 工作 ， 因 为 它 只 
我 们 在 和 干净 的 用 户 工作 区 试 试 : 
h(9) 
## January February March 
HH -8.436 6.583 -2.727 


到 目前 为 止 ， 我 们 的 直觉 是 正确 的 。 


看 看 ， 如 果 把 y 定义 在 用 户 工作 区 ， 


y <- 16 
h(9) 


## [1] 144 








应 该 小 心 使 用 全 局 变量 ， 
h2 和 y 将 有 一 半 的 几率 





它 不 包含 变量 y， 所 以 它 会 抛 出 
环境 中 被 发 现 ， 这 种 作用 域 系统 通 


4 RÆ h 的 环境 中 无 法 找到 一 个 名 为 y 的 变 
工作 区 ( 即 全 局 环境 ) 中 搜索 ， 然 后 就 能 得 出 





前 的 环境 变量 下 寻找 





April 
-11.976 


May 
-6.171 


y 没有 被 定义 ， 所 以 该 函数 将 抛 出 一 个 错误 。 


会 发 生 什么 : 








执行 时 ，y 是 局 部 





h2 <- function(x) 


if(runif(1) > 0.5) y <- 12 
x *y 


} 

















我 们 使 用 replicate 运行 儿 次 来 查看 其 结 


replicate(10, h2(9)) 





i 


## [1] 144 144 144 108 144 108 108 144 108 108 


ASH, WREDA, MARAS 
环境 中 搜索 ， 以 此 类 推 ， 直 到 达到 全 局 环境 。 
量 在 任何 地 方 都 可 见 ， 这 就 是 它们 被 称 为 全 局 变量 的 原因 。 

的 父 环境 ， 因 此 y 能 
一 个 错误 。 


常 很 有 用， 但 它 也 会 带 来 有 缺陷 、 


被 发 现 。 在 第 二 个 例子 中 ， 


PLES 
— 








g 的 父 环境 


PRE ROME 





接受 一 个 参数 x， 但 它 的 函数 体 中 却 使 用 了 两 个 参数 x 和 yo 


现在 来 


量 时 ， 它 会 在 h 的 父 环境 ， 即 定义 了 y 的 用 户 
正确 的 乘积 


因为 它 很 容易 引出 错 得 离谱 的 代码 。 
被 随机 定义 为 局 部 变量 。 因 为 y 被 定义 于 用 户 工作 区 中 ， 所 以 当 它 
变量 还 是 全 局 变量 完全 是 随机 的 1 


在 以 下 被 修改 过 的 函数 中 ， 
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如 果 用 runif 函数 产生 的 出 均匀 分 布 的 随机 数 〈 在 0 和 1 之 间 ) 比 .5 要 大 时 ， 局 部 变量 
y 的 值 被 赋值 为 2。 否则 ， 将 使 用 全 局 值 16。 


我 加 肯定 你 已 经 注意 到 ， 非 常 容易 使 代码 隐藏 有 错误 。 通 党 来 说 ， 更 好 的 做 法 是 显 式 地 向 
函数 传递 我 们 需要 的 所 有 变量 。 


6.4 ”小结 


。 环境 能 存储 变量 ， 它 能 够 被 new.env 函数 创建 。 
。 通常 ， 你 可 以 把 环境 看 作 列 表 。 

。 所 有 的 环境 都 有 一 个 父 环境 〈 除 了 顶部 的 空 环境 ) 。 

。 函数 由 形 参 和 函数 体 组 成 。 

。 你 可 以 分 配 和 使 用 函数 ， 像 对 任何 其 他 的 变量 类 型 一 样 。 
。 R 将 在 当前 的 环境 及 其 父 环境 中 查找 变量 。 


6.5 知识 测试 : 问题 
。 问题 6-1 
全 局 环境 的 另 一 个 名 字 是 什么 ? 


























。 问题 6-2 
如 何 把 列表 转换 为 环境 ? 





。 问题 6-3 
如 何 将 函数 的 内 容 打 印 到 控制 台 上 ? 





。 问题 6-4 
列举 三 个 能 够 输出 函数 形 参 名 称 的 函数 。 











。 问题 6-5 
do.call 函数 会 做 些 什 么 ? 


6.6 知识 测试 : 练习 
。 练习 6-1 
创建 一 个 名 为 multiples_of_pi 的 新 环境 。 将 以 下 变量 分 配 到 此 环境 中 : 
(1) two_pt， 值 为 2 * 区 ， 使 用 双方 括号 ; 
(2) three_pt， 值 为 3 * rn， 使 用 美元 符号 运算 符 ; 
(3) four_pt， 值 为 4 * xn， 使 用 assign 函数 。 
列 出 环境 的 内 容 ， 以 及 它们 的 值 。[10] 
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练习 6-2 

写 一 个 接受 一 个 整数 向 量 的 函数 (为 简单 起 见 ， 你 不 用 担心 输入 检查 )， 它 将 返回 一 个 
逻辑 向 量 。 其 判断 逻辑 是 : 如 果 输 入 值 是 偶数 则 返回 TRUE; 奇数 则 返回 FALSE; 非 有 
RE ( 非 有 限 值 指 任何 能 使 用 is.finite 函数 返回 FALSE 的 东西 : 如 Inf、-Inf、NA 和 
NaN) 则 返回 NA。 输 入 正 、 负 、 零 和 非 无 限 值 来 检查 此 函数 。[10] 



































练习 6-3 

写 一 个 函数 ， 它 接受 一 个 函数 作为 输入 ， 并 返回 一 个 包含 两 个 元 素 的 列表 : 一 个 名 为 
args 的 元 素 ， 它 包含 了 一 个 形 参 的 结对 列表 ， 一 个 命 为 body 的 元 素 ， 它 包含 输入 的 内 
容 。 使 用 不 同 的 输入 测试 此 函数 。[10] 
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字符 捉 和 因子 























就 像 要 经 常 处 理 数字 和 逻辑 值 一 样 ， 有 时 你 也 必须 要 处 理 文本 ， 这 在 检索 或 清理 数据 集 时 
尤为 常见 。 有 时 ， 你 想 把 日 志文 件 中 的 文本 转换 成 有 意义 的 值 ， 或 修改 数据 中 的 错别字 。 
数据 清理 将 在 第 13 章 中 深入 讨论 ， 现 在 先 来 学 习 如 何 操作 字符 向 量 。 






































因子 用 于 存储 类 别 数据 ， 如 性 别 〈 男 或 女 )， 它 提供 有 限 的 字符 串 选 项 。 根 据 上 下 文 的 不 
同 ， 它 们 使 用 起 来 有 时 像 字符 向 量 ， 有 时 像 整数 向 量 。 


7.1 本 章 目标 

阅读 本 章 后 ， 你 会 了 解 以 下 内 容 : 

。 如 何 从 现 有 的 字符 串 中 构造 出 一 个 新 的 字符 串 ， 
。 如 何 格式 化 数字 的 打印 格式 ， 


。 了 解 特殊 字符 ， 如 制 表 和 换行 符 ， 
。 如 何 创建 和 操作 因子 。 


7.2 FFP 

文本 数据 存储 在 字符 向 量 中 (或 字符 数组 中 ， 虽 然 这 较 少 见 )。 重 要 的 是 ， 字 符 向 量 中 的 
每 个 元 素 都 是 字符 串 ， 而 非 单独 的 字符 。 在 R 中 ,“ 字 符 串 ”是 个 常用 的 非 正 式 术 语 ， 因 
为 正式 的 “字符 向 量 元 素 ” 读 起 来 相当 欣 口 。 
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文本 的 基本 单位 是 字符 向 量 ， 这 意味 着 大 部 分 字符 串 处 理 函 数 也 能 用 于 字符 串 向 量 ， 这 与 
数学 运算 的 向 量化 方式 相同 。 


7.2.1 创建 和 打印 字符 串 
如 你 所 见 ， 字 符 向 量 可 用 c 国 数 创建 。 我 们 可 以 用 单 引 号 或 双 引 号 把 字符 串 引 用 起 来 ， 只 
要 引号 之 间 匹 配 即 可 。 不 过 ， 使 用 双 引 号 更 为 标准 : 











c( 
"You should use double quotes most of the time", 
"Single quotes are better for including " inside the string' 


) 


## [1] "You should use double quotes most of the time" 
## [2] "Single quotes are better for including \" inside the string" 


paste 国 数 能 将 不 同 字符 串 组 合 在 起 来 。 在 它 传 人 的 参数 向 量 中 ， 每 个 元 素 都 能 自我 循环 
以 达到 最 长 的 矢量 长 度 ， 然 后 字符 串 就 被 拼接 在 一 起 ， 中 间 以 空格 分 开 。 可 以 使 用 参数 
sep 更 改 分 隔 符 ， 或 使 用 相关 的 pasteo 图 数 去 掉 分 隔 符 。 所 有 的 字符 串 被 组 合 后 ， 可 使 用 
collapse 参数 把 结果 收缩 成 一 个 包含 所 有 元 素 的 字符 串 : 





























paste(c("red", "yellow"), "Lorry") 


## [1] "red lorry" "yellow lorry" 
paste(c("red", "yellow"), "lorry", sep = "-") 
## [1] "red-lorry" "yellow- Lorry" 


paste(c("red", "yellow"), "lorry", collapse = ", ") 
## [1] "red lorry, yellow lorry" 
pasteO(c("red", "yellow"), "lorry") 


## [1] "redlorry" "yellowlorry" 





toString 国 数 是 paste 的 变种 ， 它 在 打印 向 量 时 非常 有 用 。 它 使 用 逗号 和 空格 分 隔 每 个 元 
素 ， 且 可 限制 打印 的 数量 。 在 下 例 中 ，width = 40 将 输出 限制 为 40 个 字符 : 








x <- (1:15) * 2 
toString(x) 


## [1] "1, 4, 9, 16, 25, 36, 49, 64, 81, 100, 121, 144, 169, 196, 225" 
toString(x, width = 40) 


## [1] "1, 4, 9, 16, 25, 36, 49, 64, 81, 100...." 
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cat 是 一 个 低级 函数 ， 工 作 原 理 类 似 于 paste， 不 过 格式 功能 
不 过 ， 你 应 该 对 它 有 所 了 解 ， 
参数 '， 将 输出 写 入 文件 : 














cat(c("red", "yellow"), "lorry") 


## red yellow lorry 


少 。 你 将 很 少 直接 调用 它 。 


因为 它 是 大 部 分 print 函数 的 基础 。cat 也 可 接受 一 个 file 


通常 情况 下 ， 当 字符 串 打 印 到 控制 台 时 ， 它 们 会 以 双 引 号 括 起 来 。 如 果 对 它们 使 用 
noquote 国 数 ， 就 可 以 去 掉 这 些 引 号 。 有 时 ， 这 会 使 文本 更 具 可 读 性 


x <- c( 
"Ig "saw", tan "saw", "that", "could", "out", 
"saw", "any", "other", "saw", "I", "ever", "saw" 
) 
y <- noquote(x) 
x 
#4 [1] A ia "Saw" Malt "Saw" "that" "could" "out" "Saw" 
HH [9] "any" "other" "Saw" ga ia "aver" "Saw" 
y 
## [1] I saw a saw that could out saw any other saw 
## [12] I ever saw 


7.2.2 格式 化 数字 


有 几 个 国 数 可 用 于 数字 的 格式 化 。formatc 可 让 你 使 用 C 话 言 的 格式 化 风格 来 指定 使 用 固 
定型 或 科学 型 的 格式 、 小 数 的 位 数 以 及 输出 的 宽度 。 无 论 使 用 哪 种 选项 ， 输 入 都 应 该 是 
numeric 类 型 (包括 数组 ) ， 且 输出 是 character 字符 向 量 或 数组 : 





pow <- 1:3 
(powers_of_e <- exp(pow)) 


## [1] 2.718 7.389 20.086 
formatC(powers_of_e) 
## [1] "2.718" "7.389" "20.09" 


formatC(powers_of_e, digits = 3) 


## [1] "2.72" "7.39" "20.1" 


# 指定 三 个 数字 


formatC(powers_of_e, digits = 3, width = 10) # 前 面 加 上 一 个 空格 


## [1] " > 7.39" " 20.1" 























file 函数 返回 的 文件 的 路 径 或 连接 。 








TEL: 再 学 究 气 点 ， 它 接受 一 个 
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formatC(powers_of_e, digits = 3, format = "e") # 科 学 格式 

## [1] "2.718e+00" "7.389e+00" "2.009e+01" 

formatC(powers_of_e, digits = 3, flag = "+") # 前 面 加 上 + 

#4 [1] "+2.72" "+7.39" "+20.1" 
R 还 提供 了 更 通用 的 C 风格 的 格式 化 函数 sprintf。 与 sprintf 在 其 他 任何 语言 中 的 工作 
方式 一 样 : 第 一 个 参数 包含 字符 串 或 数字 变量 的 占 位 符 ， 其 他 参数 则 将 逐个 代入 这 些 占 位 
符 。 不 过 请 记 住 ，R 中 大 部 分 的 数值 是 浮 点 值 而 非 整数 。 
sprint 的 第 一 个 参数 指定 了 一 个 格式 化 字符 串 ， 其 中 包括 其 他 值 的 占 位 符 。 例 如 : %s 代 
表 另 一 个 字符 串 ，%f 和 %e 分 别 代 表 固 定型 格式 和 科学 型 格式 的 浮 点 数 ，%d 表示 整数 。 其 
他 参数 的 值 将 禁 换 占 位 符 。 与 paste 函数 类 似 ， 较 短 长 度 的 输入 将 循环 自身 以 匹配 最 长 的 
输入 : 
































sprintf("%s %d = %f", "Euler's constant to the power", pow, powers_of_e) 


## [1] "Euler's constant to the power 1 = 2.718282" 
## [2] "Euler's constant to the power 2 = 7.389056" 
## [3] "Euler's constant to the power 3 = 20.085537" 


sprintf("To three decimal places, e ^ %d = %.3f", pow, powers_of_e) 


## [1] "To three decimal places, e ^ 1 = 2.718" 
## [2] "To three decimal places, e ^ 2 = 7.389" 
## [3] "To three decimal places, e ^ 3 = 20.086" 


sprintf("In scientific notation, e ^ %d = %e", pow, powers_of_e) 


2.718282e+00" 
7.389056e+00" 
2.008554e+01" 


## [1] "In scientific notation, e ^ 1 
## [2] "In scientific notation, e ^ 2 
## [3] "In scientific notation, e ^ 3 


其 他 格式 化 数字 的 方法 有 format 和 prettyNum 这 两 个 函数 。format 提供 的 格式 化 字符 串 的 
语法 稍 有 不 同 ， 与 formate 的 用 法 基本 类 似 。 而 prettyNum 则 非常 适合 于 格式 化 那些 非常 
大 或 非常 小 的 数字 : 

format(powers_of_e) 


## [1] " 2.718" " 7.389" "20.086" 


format(powers_of_e, digits = 3) # 至 少 三 个 数字 
## [1] " 2.72" " 7.39" "20.09" 
format(powers_of_e, digits = 3, trim = TRUE) #ATIS RW O 


## [1] "2.72" "7.39" "20.09" 


format(powers_of_e, digits = 3, scientific = TRUE) 





>t 
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## [1] "2.72e+00" "7.39e+00" "2.01e+01" 


prettyNum( 
c(1e10, 1e-20), 
big.mark = ",", 
small.mark = " ", 
preserve.width = "individual", 
scientific = FALSE 

) 


## [1] "10,000,000,000" "0.00000 00000 00000 00001" 


7.2.3 ”特殊 字符 

有 一 些 特 殊 的 字符 可 以 被 包含 在 字符 串 中 。 例 如 ， 我 们 可 以 通过 \t 插入 一 个 制 表 符 。 在 
下 例 中 ， 我 们 使 用 cat MIE print, FW print 执行 的 额外 的 转换 动作 会 把 制 表 符 \t 转换 
成 反 斜 杜 和 一 个 “t.”。cat 的 参数 fill = TRUE 使 光标 在 一 行 结束 后 移动 到 下 一 行 : 











cat("foo\tbar", fill = TRUE) 
## foo bar 


将 光标 移动 到 下 一 行 是 通过 打印 换行 符 \n 完成 的 (这 在 所 有 平台 上 都 一 样 。 在 R 中 ,不 要 
使 用 \r 或 \r\n 来 打印 换行 符 ， 因 为 \r 会 将 光标 移动 到 当前 行 的 开始 并 覆盖 你 所 写 的 内 容 ) : 














cat("foo\nbar", fill = TRUE) 


## foo 
## bar 





FER 的 内 部 代码 中 ， 空 字符 \9 用 于 终止 字符 串 。 然 而 ， 显 式 地 把 它们 包含 在 字符 串 中 是 
FRAI (HIRE R 会 丢弃 字符 串 中 空 字符 之 后 的 内 容 ) : 


cat("foo\Obar", fill = TRUE) # 这 会 抛 出 一 个 错误 


打印 反 斜 杠 符 时 需要 连续 输入 两 个 反 斜 杠 符 ， 以 免 被 误 认 为 特殊 字符 。 在 下 例 中 ， 输 入 两 
个 反 斜 枉 ， 打 印 时 只 会 看 到 一 个 : 











cat("foo\\bar", fill = TRUE) 
## foo\bar 


如 果 我 们 需要 在 字符 串 中 使 用 双 引 号 ， 那 么 双 引 号 符 前 必须 加 一 个 反 斜 杠 来 转 义 。 同 样 
地 ， 如 果 要 在 字符 串 中 使 用 单 引 号 ， 则 单 引 号 需要 被 转 义 : 





cat("foo\"bar", fill = TRUE) 


## foo"bar 





90 | 第 7 章 


cat('foo\'bar', fill = TRUE) 


## foo'bar 


与 之 相反 ， 如 果 在 被 双 引号 引用 的 字符 串 中 使 用 单 引号 ， 或 在 被 单 引 号 引用 的 字符 串 中 使 
用 双 引 号 ， 则 并 不 需要 对 其 进行 转 义 : 





cat("foo'bar", fill = TRUE) 
## foo'bar 
cat('foo"bar', fill = TRUE) 
## foo"bar 
通过 打印 报警 符 \a 能 让 我 们 的 电脑 发 出 提示 声 (beep)， 不 过 alarm 函数 也 能 完成 此 功能 


且 可 读 性 更 好 。 当 想 要 程序 在 一 个 耗 时 很 长 的 分 析 任 务 结束 后 主动 通知 你 (你 不 在 开放 式 
的 办 公 室 )， 这 个 函数 就 能 派 上 用 场 : 


cat("\a") 
alarm() 


7.24 更改 大 小 写 

使 用 toupper 和 tolower 函数 能 把 字符 串 中 的 字符 全 部 转换 为 大 写 或 小 写 : 
toupper ("I'm Shouting") 
## [1] "I'M SHOUTING" 
tolower ("I'm Whispering") 


## [1] "i'm whispering" 


7.2.5 FH R 

有 两 个 国 数 可 用 于 从 字符 串 中 截取 子 串 : substring 和 substr。 在 大 多 数 情况 下 ， 你 可 以 
随便 选 一 个 使 用 。 不 过 ， 如 果 你 传人 了 不 同 长 度 的 向 量 参数 ， 它 们 的 行为 会 略 有 不 同 。 对 
substring 来 说 ， 输 出 的 长 度 与 最 长 的 输入 一 样 ， 而 对 substr 来 说 ， 输 出 的 长 度 只 与 第 一 
个 输入 的 相等 : 








woodchuck <- c( 
"How much wood would a woodchuck chuck", 
"If a woodchuck could chuck wood?", 
"He would chuck, he would, as much as he could", 
"And chuck as much wood as a woodchuck would", 
"If a woodchuck could chuck wood." 
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substring(woodchuck, 1:6, 10) 


## [1] "How much w" "f a woodc" " would c" "chuck " " woodc" 
## [6] "uch w" 

substr(woodchuck, 1:6, 10) 

## [1] "How much w" "f a woodc" " would c" " chuck " " woodc" 


7.2.6 ”分 割 字符 串 

paste 及 其 相关 函数 能 把 字符 串 组 合 在 一 起 。strsplit 则 正好 相反 ， 它 在 指定 的 某 些 点 
上 分 割 字 符 串 。 我 们 可 以 把 上 例 中 的 土 拨 鼠 绕 口 字符 串 按 空格 分 开 。 在 下 例 中 ，fixed = 
TRUE 意味 着 split 的 参数 是 固定 长 度 的 字符 串 而 非 正 则 表达 式 : 




















strsplit(woodchuck, " ", fixed = TRUE) 


## [[1]] 

## [[1]] 

## [1] "How" "much" "wood" "would" "a" "woodchuck" 
## [7] "chuck" 

## 

## [[2]] 
## [1] "If" "a" "woodchuck" "could" "chuck" "wood?" 
BS 
## [[3]] 
## [1] "He" "would" "chuck," "he" "would," "as" "much" 
## [8] "as" "he" "could" 

## 
## [[4]] 
## [1] "And" "chuck" "as" "much" "wood" "as" 

## [7] "a" "woodchuck" "would" 

## 

## [[5]] 

## [1] "If" "a" "woodchuck" "could" "chuck" "wood." 


请 注意 ，strsplit 返回 的 是 列表 (而 非 字 符 向 量 或 矩阵 )。 这 是 因为 它 的 结果 可 能 由 不 同 
长 度 的 字符 向 量 组 成 。 当 你 只 传人 一 个 字符 串 时 ， 这 种 情况 很 容易 被 忽视 。 请 小 心 ! 


在 我 们 的 例子 中 ， 某 些 词 最 后 的 逗号 有 些 烦人 。 最 好 的 方法 是 在 空格 分 割 符 后 加 一 个 可 选 
的 逗号 ， 使 用 正则 表达 式 就 很 容易 搞定 。? 意味 着 “前 面 的 字符 可 选 ”: 











strsplit(woodchuck, ",? ") 


## [[1]] 

## [1] "How" "much" "wood" "would" "a" "woodchuck" 
## [7] "chuck" 

## 

## [[2]] 

## [1] "If" "a" "woodchuck" "could" "chuck" "wood?" 

## 





## [[3]] 


## [1] "He" "would" "chuck" "he" "would" "as" "much" "as" 

## [9] "he" "could" 

## 

## [[4]] 

## [1] "And" "chuck" "as" "much" "wood" "as" 

## [7] "a" "woodchuck" "would" 

## 

## [[5]] 

## [1] "If" "a" "woodchuck" "could" "chuck" "wood." 


7.2.7 文件 路 径 
R 有 一 个 工作 目录 ， 默 认为 文件 被 读 写 的 地 方 。 我 们 可 以 使 用 getwd 查看 到 它 的 位 置 ， 并 
使 用 setwd 来 改变 它 : 

getwd() 

## [1] "d:/workspace/LearningR" 


setwd("c: /windows" ) 
getwd() 


## [1] "c:/windows" 
请 注意 ， 每 个 路 径 的 目录 部 分 由 正 斜 本 分隔， 即使 在 Windows 下 也 是 这 样 。 为 了 保持 可 移 
植 性 ， 在 R 中 你 可 以 始终 对 路 径 使 用 正 斜 杠 。 根 据 操作 系统 的 不 同 ， 文 件 处 理 函 数 能 够 魔 
术 般 地 把 它们 自动 替换 为 反 斜 杠 。 


你 也 可 以 使 用 双 反 斜 杠 来 表示 Windows 的 路 径 ， 不 过 正 斜 杠 仍 为 首选 : 




















"c:\\windows" # 记 住 使 用 两 个 斜 杠 

"\\\\myserver\\mydir" #X}F UNC 的 命名 法 ， 需 在 开始 使 用 四 个 斜 杠 
或 者 ， 你 可 以 使 用 fne.path 来 从 各 个 目录 中 创建 文件 路 径 。 它 会 自动 地 在 目录 名 称 之 间 
插入 正 斜 杠 。 它 就 像 一 个 更 加 简单 快速 的 为 处 理 路 径 而 定制 的 paste ABC: 






































file.path("c:", "Program Files", "R", "R-devel") 
## [1] "c:/Program Files/R/R-devel" 
R.home() # 同样 也 是 R 的 安装 目录 


## [1] "C:/PROGRA~1/R/R-devel" 





路 径 可 以 是 绝对 路 径 (从 驱动 器 名 称 或 网 络 共 享 处 开始 ) 或 相对 目录 (相对 于 当前 工作 目 
录 )。 在 后 一 种 情况 中 ，. 用 于 当前 目录 而 .. 用 于 父 目录 。~ 代表 当前 用 户主 目录 。path. 
expand 能 将 相对 路 径 转换 为 绝对 路 径 : 





path.expand(".") 
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## [4] "5" 
path.expand("..") 
## [4] ".." 


path.expand( 


## [1] "C:\\Users\\richie\\Documents" 





basename 只 返回 文件 名 ， 而 不 包括 前 面 的 目录 位 置 。 与 之 相反 ，dirname 只 返回 文件 的 目录 : 





file_name <- "C:/Program Files/R/R-devel/bin/x64/RGui.exe" 
basename(file_name) 


## [1] "RGui.exe" 
dirname(file_name) 


## [1] "C:/Program Files/R/R-devel/bin/x64" 


7.3 AF 


因子 是 一 个 用 于 存储 类 别 变量 的 特殊 的 变量 类 型 。 它 有 时 像 字 符 串 ， 有 时 又 像 整 数 。 








7.3.1 创建 因子 
当 你 用 一 列 文本 数据 创建 数据 框 时 ，R 将 文本 默认 为 类 别 数 据 并 进行 转换 。 下 例 中 的 数据 
集 包 含 了 随机 的 10 个 成 年 人 的 身高 数据 : 





(heights <- data.frame( 
height_cm = c(153, 181, 150, 172, 165, 149, 174, 169, 198, 163), 
gender = c( 
"female", "male", "female", "male", "male", 
"female", "female", "male", "male", "female" 


) 

)) 
#H height_cm gender 
## 1 153 female 
## 2 181 male 
## 3 150 female 
## 4 172 male 
## 5 165 male 
## 6 149 female 
## 7 174 female 
## 8 169 male 
## 9 198 male 
## 10 163 female 





过 检查 gender 一 列 的 类 ， 正 如 你 所 料 ， 我 们 发 现 它 不 是 一 个 字符 向 量 ， 而 是 一 个 因子 : 
class(heights$gender ) 
## [1] "factor" 
把 这 列 打印 出 来 可 看 到 它 更 多 的 本 质 信 息 : 
heights$gender 


## [1] female male female male male female female male male female 
## Levels: female male 


因子 中 的 每 个 值 都 是 一 个 字符 串 ， 它 们 被 限制 为 “female”、“male” 或 缺失 值 。 如 果 我 们 
把 不 同 的 字符 串 添加 到 genders 中 ， 此 项 约束 则 变 得 很 明显 : 





heights$gender[1] <- "Female" # 注意 是 大 写 的 "F" 
## Warning: invalid factor level, NA generated 
heights$gender 


## [1] <NA> male female male male female female male male female 
## Levels: female male 





选项 “female” 和 “male” 被 称 为 因子 水 平 ， 它 能 用 levels 国 数 查询 到 : 
Llevels(heights$gender ) 


## [1] "female" "male" 








水 平 的 级 数 (相当 于 因子 level 的 length) 可 由 nlevel 函数 查询 到 : 








nlevels(heights$gender ) 


## [1] 2 





en corr aaa 函数 创建 它 。 它 的 第 一 个 参 
Be (唯一 的 强制 要 求 ) 是 一 个 字符 向 量 : 








ta 


gender_char <- c( 
"female", "male", "female", "male", "male", 
"female", "female", "male", "male", "female" 
) 


(gender_fac <- factor(gender_char)) 


## [1] female male female male male female female male male female 
## Levels: female male 
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7.3.2 更改 因 子 水 平 
我 们 可 以 通过 指定 Levels 参数 来 更 改 因子 被 创建 时 水 平 的 先后 顺序 : 


factor(gender_char, levels = c("male", "female")) 


## [1] female male female male male female female male male female 
## Levels: male female 


如 果 想 在 因子 创建 之 后 再 改变 因子 水 平 的 顺序 ， 就 再 次 使 用 factor 国 数 ， 这 时 它 的 参数 是 
当前 的 因子 (而 不 是 字符 向 量 ) : 




















factor(gender_char, levels = c("male", "female")) 


## [1] female male female male male female female male male female 
## Levels: male female 





| 不 能 使 用 tevets 函数 直接 改变 因子 的 水 平 值 。 因 为 这 将 重新 为 每 一 个 水 平 打 
ED 上 标签 ,更 改 数据 值 ， 这 通常 不 是 我 们 想 要 的 。 


























在 下 例 中 ， 直 接 设 置 因子 的 水 平 值 会 将 数据 中 的 male 变 成 female, female 变 成 male, ix 
并 不 是 我 们 想 要 的 : 








levels(gender_fac) <- c("male", "female") 
gender_fac 


## [1] male female male female female male male female female male 
## Levels: male female 


relevel 函数 是 另 一 种 改变 因子 水 平顺 序 的 方法 。 在 这 种 情况 下 ， 你 只 需 指 定 第 一 个 水 平 
值 。 正 如 你 所 料 ， 此 功能 的 使 用 场景 还 是 相当 少 的 (在 将 不 同类 别 和 引用 类 别 相 比较 的 回 
归 模 型 中 ， 它 很 好 用 )。 大 多 数 时 候 ， 使 用 factor 函数 来 设置 水 平 值 会 更 方便 : 























relevel(gender_fac, "male") 


## [1] male female male female female male male female female male 
## Levels: male female 


7.3.3 去 掉 因 子 水 平 


在 数据 集 清 理 的 过 程 中 ， 最 终 你 可 能 需要 去 掉 所 有 与 因子 水 平 对 应 的 数据 。 考 虑 以 下 数据 
集 ， 它 记录 了 上 班 途 中 所 使 用 的 交通 工具 的 次 数 : 


getting_to_work <- data.frame( 
mode = c( 
"bike", “Car”; "bus", "ear", "walk", 
"bike", "car", "bike", "car", "car" 
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)， 
time_mins = c(25, 13, NA, 22, 65, 28, 15, 24, NA, 14) 
) 


并 非 每 次 都 有 记录 ， 所 以 我 们 的 第 一 个 任务 是 去 掉 那 些 time_mins 是 NA 的 行 : 


(getting_to_work <- subset(getting_to_work, !is.na(time_mins))) 


#H mode time_mins 
## 1 bike 25 
## 2 car 13 
## 4 car 22 
## 5 walk 65 
## 6 bike 28 
## 7 car 15 
## 8 bike 24 
## 10 car 14 

















请 看 mode 一 列 ， 其 中 只 有 三 个 不 同 值 ， 而 因子 水 平 却 是 four。 我 们 可 以 使 用 unique 国 数 


( 














当然 ， 也 可 以 用 levels 国 数 ) 看 请 这 一 点 : 





unique(getting_to_work$mode) 


## [1] bike car walk 
## Levels: bike bus car walk 


如 果 要 删除 未 使 用 的 水 平 因子 ， 我 们 可 以 使 用 droplevels 函数 。 它 接受 因子 或 是 数据 框 作 


为 参数 。 对 后 者 来 说 ， 它 将 丢弃 输入 因子 中 所 有 未 使 用 的 水 平 。 因 为 在 我 们 的 数据 框 里 只 




















有 一 个 因子 未 使 用 ， 所 以 下 例 中 的 两 行 代码 是 等 价 的 : 


getting_to_work$mode <- droplevels(getting_to_work$mode) 
getting_to_work <- droplevels(getting_to_work) 
Llevels(getting_to_work$Smode) 


## [1] "bike" "car" "walk" 


734 BRAF 
有 些 因子 的 水 平 在 语义 上 大 于 或 小 于 其 他 水 平 。 这 在 多 选择 题 的 调查 问题 中 很 常见 。 例 
如 ， 调 查 问 题 “ 你 有 多 快乐 ? ”可 能 的 回答 包括 :“depressed”“grumpy”“so-so”“cheery” 和 


“ 


S 








ecstatic” *。 结 果 是 类 别 变量 ， 所 以 我 们 可 以 创建 一 个 拥有 五 个 选项 的 因子 。 在 此 ， 使 用 
ample 函数 来 产生 10000 个 随机 回复 : 





happy_choices <- c("depressed", "grumpy", "so-so", "cheery", "ecstatic") 
happy_values <- sample( 

happy_choices, 

10000, 





a 


E2: 有 时 这 被 称 为 李 克 特 量 (Likert scale) 表 。 
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replace = TRUE 


) 
happy_fac <- factor(happy_values, happy_choices) 


head(happy_fac) 


## [1] grumpy depressed cheery ecstatic grumpy grumpy 
## Levels: depressed grumpy so-so cheery ecstatic 


在 这 种 情况 下 ， 对 调查 者 来 说 ， 五 个 选项 其 实 是 有 顺序 的 :“grumpy”( 暴 踩 的 ) 比 
“depressed” (VA) 更 快乐 些 ， 而 “ srs eel “grumpy” 更 快乐 些 等 。 这 
意味 着 最 好 把 回复 存储 在 一 个 按 顺 序 排列 的 因子 中 。 使 用 ordered 函数 (或 通过 给 factor 
传 入 order = TRUE 参数 ) 可 实现 这 个 功能 





happy_ord <- ordered(happy_values, happy_choices) 
head(happy_ord) 


## [1] grumpy depressed cheery ecstatic grumpy grumpy 
## Levels: depressed < grumpy < so-so < cheery < ecstatic 


一 个 有 序 的 因子 还 是 因子 ,但 一 般 的 因子 却 不 一 定 是 有 序 的 




















is.factor(happy_ord) 
## [1] TRUE 
is.ordered(happy_fac) 


## [1] FALSE 


在 大 多 数 情况 下 ， 你 无 需 为 有 序 因子 的 使 用 担心 ， 而 仅 会 在 某 些 模型 中 看 到 差别 。 不 过 ， 
在 分 析 调 查 数据 时 ， 它 们 比较 有 用 。 








7.3.5 将 连续 变量 转换 为 类 别 

一 个 汇总 数值 变量 的 方法 是 计算 有 多 少 个 值 落 入 不 同 的 “组 ”(bins) 中 ，cut 函数 能 将 数 
值 变量 切 成 不 同 的 块 ， 然 后 返回 一 个 因子 。 它 通常 使 用 table 国 数 得 到 每 组 数字 的 总 和 。 
(hist 函数 能 画 出 直方 图 ， 它 也 能 实现 这 个 功能 ， 就 像 我 们 将 在 后 面 看 到 的 包含 在 plyr 包 
中 的 count 一 样 。) 


在 下 例 中 ， 我 们 随机 地 生成 10 000 名 工人 的 年 龄 数据 (从 16 到 66， 使 用 Beta ti), 并 
将 他 们 按 每 10 年 分 组 : 











ages <- 16 + 50 * rbeta(10000, 2, 3) 
grouped_ages <- cut(ages, seq.int(16, 66, 10)) 
head(grouped_ages) 


## [1] (26,36] (16,26] (26,36] (26,36] (26,36] (46,56] 
# Levels: (16,26] (26,36] (36,46] (46,56] (56,66] 
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table(grouped_ages) 


## grouped_ages 

## (16,26] (26,36] (36,46] (46,56] (56,66] 

## 1844 3339 3017 1533 267 
在 本 例 中 ， 大 部 分 工人 的 年 龄 分 布 于 26 FI 36 和 36 到 46 两 个 类 别 中 (这 正 是 使 用 Beta 分 
布 的 结果 ) 。 





请 注意 ，ages 是 一 个 数字 变量 ， 而 grouped_ages 是 一 个 因子 : 


class(ages) 
## [1] "numeric" 
class(grouped_ages) 


## [1] "factor" 


7.3.6 ”将 类 别 变量 转换 为 连续 变量 

与 上 面相 反 的 情况 是 把 因子 转换 成 数值 变量 ， 这 在 数据 清理 中 非常 有 用 。 如 果 你 有 一 些 脏 
数据 ， 例 如 打 错 了 的 数字 ， 在 数据 导入 的 过 程 中 ，R 会 将 它们 解释 为 字符 串 ， 并 将 其 转换 
为 因子 。 在 下 例 中 ， 其 中 一 个 数字 有 两 个 小 数 点 。 诸 如 read.table 的 导入 函数 (第 12 章 将 
深入 探讨 ) 将 无 法 把 这 样 的 字符 串 解 析 成 数字 格式 ， 而 会 默认 把 这 一 列 转换 成 字符 向 量 : 






























































dirty <- data.frame( 
x = c("1.23"，"4..56"，"7.89") 
) 


要 想 把 x 列 转换 为 数字 ， 显 而 易 见 的 解决 方法 是 调用 as.numertic。 可 惜 ， 它 给 出 了 错误 的 
as.numeric(dirty$x) 
## [1] 1 2 3 
将 as.numeric 国 数 作用 于 因子 上 却 看 到 了 整数 值 ， 这 说 明 因子 使 用 了 整数 来 存储 数据 。 在 
一 般 情 况 下 ， 可 以 从 Levels(f)[as.integer(f)] FEH f AT. 


为 了 正确 地 把 因子 转换 为 数字 ， 可 先 把 因子 转换 为 字符 向 量 ， 再 转换 为 数值 。 第 二 个 值 是 
NA， 因 为 4. .56 并 不 是 一 个 真正 的 数字 : 

















as.numeric(as.character(dirty$x) ) 
## Warning: NAs introduced by coercion 


## [1] 1.23 NA 7.89 
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I Tp 


这 不 够 高 效 ， 因 为 相同 的 值 须 被 多 次 转换 。 正 如 FAQ on R 中 所 指出 的 ， 更 好 的 方法 是 将 

















因子 水 平 转换 为 数字 ， 然 后 再 像 上 面 一 样 重建 因子 : 














as.numeric(Levels(dirty$x))[as.integer(dirty$x) ] 
## Warning: NAs introduced by coercion 


## [1] 1.23 NA 7.89 

















因为 这 不 够 直观 ， 所 以 如 果 你 经 常 使 用 它 ， 就 把 它 包 装 成 一 个 函数 以 方便 调用 : 


factor_to_numeric <- function(f) 


{ 


as.numeric(levels(f))[as.integer(f)] 


} 


7.3.7 ”生成 因子 水 平 
为 了 平衡 数据 ， 使 到 在 每 个 水 平 上 的 数据 点 的 数目 相等 ， 可 用 gl 函数 来 生成 








因子 。 


简单 的 形式 是 : 第 一 个 整 型 参数 为 要 生成 的 因子 的 水 平 数 ， 第 二 个 为 每 个 水 平 需 ae 
次 数 。 通 常 你 想 为 每 个 水 平 命名 ， 这 可 以 通过 给 Label 参数 传人 一 个 字符 向 量 来 实现 。 你 
还 可 以 通过 传人 Length 参数 以 创建 更 复杂 的 水 平 排序 ， 例 如 交替 值 (alternating value) : 


gl(3, 2) 
## [1] 112233 
## Levels: 1 2 3 


gl(3, 2, labels = c("placebo", "drug A", "drug B")) 


## [1] placebo placebo drug A drug A drug B drug B 
## Levels: placebo drug A drug B 


gl(3, 1, 6, labels = c("placebo", "drug A", "drug B")) # 2% 


## [1] placebo drug A drug B placebo drug A drug B 
## Levels: placebo drug A drug B 


7.3.8 合并 因子 
如 果 我 们 有 多 个 类 别 变 量 ， 有 时 把 它们 合并 成 一 个 单一 的 因子 是 有 用 的 ， 
各 个 变量 之 间 的 交叉 合并 (使 用 interaction 函数 ) 组 成 : 





:中 


Ni 





treatment <- gl(3, 2, labels = c("placebo", "drug A", "drug B")) 
gender <- gl(2, 1, 6, labels = c("female", "male")) 
interaction(treatment, gender) 


## [1] placebo.female placebo.male drug A.female drug A.male 
## [5] drug B.female drug B.male 
## 6 Levels: placebo.female drug A.female drug B.female ... drug B.male 


a 


个 水 平 由 
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7.4 小 结 


使 用 paste 及 其 衍生 函数 能 把 字符 串 连 接 起 来 。 
有 很 多 函数 可 用 于 数字 的 格式 化 。 

类 别 数 据 被 存储 在 因子 (或 有 序 因 子 ) 中 。 
因子 中 每 一 个 可 能 的 类 别 被 称 为 一 个 水 平 。 
连续 变量 可 以 被 cut 函数 转换 成 类 别 变量 。 














7.5 知识 测试 : 问题 


问题 7-1 
尽 可 能 多 地 指出 用 于 格式 化 数字 的 函数 。 


器 题 7-2 
如 何 让 你 的 电脑 发 出 哗 哗 声 ? 





问题 7-3 
类 别 变量 的 两 种 类 型 (type) 的 类 (class) 是 什么 ? 


问题 7-4 
如 果 你 为 一 个 因子 添加 一 个 值 ， 但 它 不 属于 这 个 水 平 ， 会 发 生 什么 ? 








器 题 7-5 
如 何 把 数字 变量 转换 成 类 别 变量 ? 


7.6 知识 测试 : 练习 


练习 7-1 

显示 pi 的 16 位 有 效 数字 。[5] 

练习 7-2 

将 以 下 字符 串 分 割 成 单词 ， 删 除 任何 扣 号 或 连 字 符 : 








x <- c( 
"Swan swam over the pond, Swim swan swim!", 
"Swan swam back again - Well swum swan!" 


) 
[5] 
练习 7-3 


TE FA MERE, MAEA E Ba BC A ETT GES RO = PN TER EE 





的 总 和 。 











和 因 
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为 了 省 下 磊 蜗 子 的 力气 ， 你 决定 用 及 来 生成 分 数 。 以 下 是 用 于 生成 它们 的 辅助 国 数 : 


#n 指定 了 要 生成 的 得 分 ， 它 必须 是 自然 数 
three_d6 <- function(n) 
{ 
random_numbers <- matrix( 
sample(6, 3 * n, replace = TRUE), 
nrow = 3 
) 
colSums(random_numbers) 


} 





得 分 多 的 将 给 予 角 色 以 奖励 ， 得 分 少 的 则 给 予 处 罚 ， 有 具体 规则 参照 下 表 : 





得 分 奖 有 励 
3 -3 
4,5 一 2 
6~ 8 -1 
9~12 0 
13~15 +1 
16, 17 +2 
18 +3 


使 用 three_d6 生成 1000 个 人 物 属 性 得 分 。 创 建 一 个 按 奖 励 级 别 排列 的 得 分 表 。[15] 
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流程 控制 和 循环 














与 其 他 语言 一 样 ，R 在 代码 中 会 经 常 需要 条 件 和 重复 逻辑 控制 存在 。 


a As, BEAT R 中 if 和 switch 的 功能 非常 熟悉 ， 尽 管 R 中 的 这 些 
能 对 你 来 说 可 能 是 新 的 。ifelse 函数 是 R 的 特殊 函数 之 一 ， 它 是 条 件 语句 的 向 量化 版 本 。 


在 本 章 中 ， 我 们 将 对 它们 以 及 其 他 三 个 你 应 该 也 非常 熟悉 的 简单 循环 (for, while 和 
repeat) 逐一 讲解 。 由 于 有 的 矢量 化 性 质 ， 以 及 其 他 更 优雅 的 国 数 的 存在 ， 这 些 循 语句 在 
R 中 的 应 用 不 如 预期 的 那样 广泛 。 


8.1 ”本章 目标 
阅读 本 章 后 ， 你 会 了 解 以 下 内 容 ， 


。 如 何 使 用 分 支 语句 ; 
。 如 何 使 用 循环 语句 重复 执行 代码 。 


8.2 流程 控制 


我 们 一 般 不 满足 于 仅仅 逐 行 地 执行 代码 ， 而 是 希望 更 好 地 控制 它们 的 执行 流程 。 这 就 意味 
着 只 有 在 某 些 条 件 满足 后 你 会 才 执行 一 些 代码 。 






































8.2.1 if 和 和 else 
最 简单 的 流程 控制 逻辑 是 使 用 ifo if 接受 一 个 逻辑 值 (更 准确 地 说 是 一 个 长 度 为 1 的 逻辑 
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向 量 ) 作为 参数 ， 且 当 该 值 为 TRUE 时 才 会 执行 下 一 条 语句 : 








if(TRUE) message("It was true!") 
## It was true! 


if(FALSE) message("It wasn't true!") 


让 的 条 件 中 不 允许 缺失 值 ， 这 样 做 会 抛 出 一 个 错误 ; 





if(NA) message("Who knows if it was true?") 


## Error: missing value where TRUE/FALSE needed 
如 果 你 的 条 件 中 可 能 会 出 现 缺失 值 ， 先 用 is.na 来 测试 它 : 


if(is.na(NA)) message("The value is missing!") 
## The value is missing! 
当然 ， 大 部 分 时 候 你 都 不 会 直接 传 入 TRUE 或 FALSE 值 ， 而 是 传递 一 个 变量 或 表达 式 一 一 


因为 如 果 知 道 该 语句 将 被 提前 执行 ， 就 不 需要 if 语句 了 。 在 下 例 中 ，runif(1) 将 在 0 和 1 
之 间 生 成 一 个 均匀 分 布 的 随机 数 。 如 果 该 值 超过 6.5， 则 显示 以 下 消息 : 















































if(runif(1) > 0.5) message("This message appears with a 50% chance.") 
如 果 你 想 有 条 件 地 执行 多 个 语句 ， 就 把 它们 括 在 大 括号 中 : 


xX <- 3 
if(x > 2) 
{ 
y 
z 
} 


为 了 使 代码 更 清晰 ， 一 些 编程 风格 指南 建议 : 即使 条 件 执行 语句 只 有 一 个 ， 也 要 使 用 大 
括号 。 


<- 


2*x 
3 *y 

















与 if 对 应 的 是 else 语句 。 如 果 if 的 条 件 值 为 FALSE， 则 会 执行 else 之 后 的 代码 : 


if(FALSE) 


message("This won't execute...") 
} else 
{ 


message("but this will.") 


## but this will. 

















以 下 规则 非常 重要 : else 必须 与 if 语句 的 右 大 括号 紧 接 在 同一 行 。 如 果 你 把 它 挪 到 下 一 
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行 ， 将 出 现 错误 : 


if(FALSE) 
message("This won't execute...") 
else 
{ 
message("and you'll get an error before you reach this.") 
} 


你 可 以 反复 使 用 if 和 else 来 定义 多 个 条 件 。 请 注意 
还 有 一 个 ifelse 函数 ， 它 稍 有 不 同 ， 我 们 将 马上 看 到 : 








(r <- round(rnorm(2), 1)) 
## [1] -0.1 -0.4 
x <- r[1] / r[2]) 
## [1] 0.25 
if(is.nan(x)) 


message("x is missing") 
} else if(is.infinite(x)) 
{ 

message("x is infinite") 
} else if(x > 0) 
{ 

message("x is positive") 
} else if(x < 0) 
{ 

message("x is negative") 
} else 
{ 


message("x is zero") 


## x is positive 
与 很 多 其 他 的 语言 不 同 ，R 有 一 个 小 技巧 能 对 你 的 代码 重新 排序 来 完成 条 件 赋 值 。 在 下 例 
中 ，Re 将 返回 复数 实 部 (Im 将 返回 虚 部 ) : 


x <- sqrt(-1 + 0i) 
(reality <- if(Re(x) == 0) "real" else "imaginary") 


## [1] "real" 


8.2.2 ”矢量 化 的 if 
标准 的 if 语句 需要 一 个 逻辑 值 作为 参数 。 如 果 给 它 传递 一 个 长 度 超过 1 的 逻辑 向 量 (请 
不 要 这 样 做 ! )，R 会 警告 你 已 给 出 多 个 选项 ， 仅 第 一 个 将 被 使 用 ; 
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if(c(TRUE, FALSE)) message("two choices") 


## Warning: the condition has length > 1 and only the first element will be 
## used 


## two choices 


nr w ae E ee 例如 ifelse cl 
数 。ifelse 有 三 个 参数 : 第 一 个 是 逻辑 条 件 向 量 ， 第 二 个 参数 值 在 第 一 个 向 量 为 TRUE 时 
被 返回 ; hk es FALSE 时 被 返回 。 在 下 例 中 ，rbinonm 使 用 二 项 分 布 
生成 随机 数 以 模拟 掷 硬 币 过 程 : 














ifelse(rbinom(10, 1, 0.5), "Head", "Tail") 
## [1] "Head" "Head" "Head" "Tail" "Tail" "Head" "Head" "Head" "Tail" "Head" 
ifetse 也 可 在 第 一 个 和 第 三 个 参数 中 接受 向 量 。 它 们 应 与 第 一 个 向 量 的 长 度 相等 (如果 不 等 ， 
那么 第 二 个 和 第 三 个 参数 中 的 元 素 将 被 重复 或 忽略 ， 以 使 它们 与 第 一 个 参数 的 长 度 相同 ) : 
(yn <- rep.int(c(TRUE, FALSE), 6)) 


## [1] TRUE FALSE TRUE FALSE TRUE FALSE TRUE FALSE TRUE FALSE TRUE 
## [12] FALSE 


ifelse(yn, 1:3, -1:-12) 
## [1] 1 -2 3 -4 2 -6 1 -8 3 -10 2 -12 
如 有 果 条 件 参数 中 有 人 缺失 值 ， 那 么 结果 中 的 相应 位 置 也 是 缺失 值 : 


yn[c(3，6，9，12)] <- NA 
ifelse(yn, 1:3, -1:-12) 


## [1] 1 -2 NA -4 2 NA 1 -8 NA -10 2 NA 


8.2.3 多 个 分 支 


如 果 包 含 太 多 的 else 语句 就 会 迅 AU 在 这 种 情况 下 ， 可 以 用 switch K 
数 来 美化 它们 。 ae 一 个 参数 为 一 个 返回 字符 串 的 表达 式 ， 其 后 的 参数 为 
与 第 一 个 参数 相 匹配 时 的 返回 值 。 ss 名 一 个 参数 完全 一 样 (M R BY 2.11.0 版 
本 开始 )， 且 你 可 以 使 用 大 括号 来 执行 多 个 表达 式 : 


























(greek <- switch( 
"gamma", 
alpha = 1, 
beta = sqrt(4), 
gamma = 
{ 
a <- sin(pi / 3) 





4*a2 


## [1] 3 


如 果 找 不 到 任何 匹配 的 名 字 ， 那 么 switch 将 ( 隐 式 地 ) 返回 NULL: 








(greek <- Switch( 


"delta", 
alpha = 1, 
beta = sqrt(4), 
gamma = 
{ 
a <- sin(pi / 3) 
4a" 2 
} 
)) 
## NULL 





对 于 这 种 情况 ， 你 可 以 在 没有 其 他 选择 的 情况 下 提供 一 个 没有 命名 的 参数 : 





(greek <- switch( 


"delta", 
alpha = 1, 
beta = sqrt(4), 
gamma = 
{ 
a <- sin(pi / 3) 
A cB ® 2 
Fs 
4 
)) 
## [1] 4 


switch 的 第 一 个 参数 也 可 以 是 一 个 整数 。 在 这 种 情况 下 ， 其 余 的 参数 不 需要 名 字 一 一 如 果 
第 一 个 参数 结果 为 1， 那么 将 返回 第 二 个 参数 的 结果 ， 如 果 第 一 个 参数 的 结果 为 2， 则 返 
回 第 三 个 参数 的 结果 ， 以 此 类 推 : 

















switch( 
3; 
"first"; 
"second", 
"third", 
"fourth" 
) 


## [1] "third" 


你 可 能 已 经 注意 到 了 ， 在 这 种 情况 下 没有 默认 参数 。 如 果 你 要 测试 的 整数 非常 大 ， 这 将 相 
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当 麻烦 ， 因 为 你 需要 提供 很 多 参数 。 这 时 ， 最 好 是 把 第 一 个 参数 转换 为 字符 串 ， 并 且 使 用 
原来 的 第 一 种 语法 : 





switch( 
as.character (2147483647), 
"2147483647" = "a big number", 
"another number" 


) 


## [1] "a big number" 


8.3 循环 


在 R 中 有 三 种 循环 repeat, while 和 for。 虽 然 向 量化 意味 着 你 可 能 并 不 像 其 他 语言 一 样 
量 需要 它们 ， 但 在 需要 重复 执行 代码 时 ， 它 们 还 是 很 有 用 的 。 





8.3.1 重复 循环 

R 中 最 容易 掌握 的 循环 是 repeat。 它 所 做 的 事情 就 是 反复 地 执行 代码 ， 直 到 告诉 它 停 为 
止 。 在 其 他 语言 中 ， 一 般 使 用 do while 或 其 他 类 似 的 方法 完成 。 以 下 的 例子 | 将 反复 执 
行 ， 直 到 你 按 下 Escape fE, RE R 或 世界 末日 降临 为 止 : 


repeat 


{ 
message("Happy Groundhog Day!") 


一 般 来 说 ， 我 们 还 是 希望 在 世界 末日 降临 之 前 终止 代码 ， 因 此 需要 一 个 break 语句 以 跳出 
ERMA. E FAF, sample 国 数 将 在 每 个 循环 迭代 中 返回 一 个 操作 : 








repeat 
message("Happy Groundhog Day!") 
action <- sample( 


cl 
"Learn French", 
"Make an ice statue", 
"Rob a bank", 
"Win heart of Andie McDowell" 
) ， 
J 
) 
message("action = ", action) 
if(action == "Win heart of Andie McDowell") break 


} 





注 1: 如 果 这 些 例子 对 你 来 说 没有 意义 ， 请 观看 电影 http://www.imdb.com/title/tt0107048。 
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## Happy Groundhog Day! 

## action = Rob a bank 

## Happy Groundhog Day! 

## action = Rob a bank 

## Happy Groundhog Day! 

## action = Rob a bank 

## Happy Groundhog Day! 

## action = Win heart of Andie McDowell 
有 时 候 ， 我 们 想 做 的 不 是 退出 整个 循环 ， 而 是 跳 过 当前 的 迭代 ， 开 始 next 下 一 次 迭代 
而 已 : 


repeat 


{ 
message("Happy Groundhog Day!") 


action <- sample( 
c( 
"Learn French", 
"Make an ice statue", 
"Rob a bank", 
"Win heart of Andie McDowell" 


Jo 
1 
) 


if(action == "Rob a bank") 


{ 
message( "Quietly skipping to the next iteration") 
next 

} 

message("action = ", action) 

if(action == "Win heart of Andie McDowell") break 


} 

## Happy Groundhog Day! 

## action = Learn French 

## Happy Groundhog Day! 

## Quietly skipping to the next iteration 
## Happy Groundhog Day! 

## Quietly skipping to the next iteration 
## Happy Groundhog Day! 

## action = Make an ice statue 


## Happy Groundhog Day! 
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## action = Make an ice statue 

## Happy Groundhog Day! 

## Quietly skipping to the next iteration 
## Happy Groundhog Day! 


## action = Win heart of Andie McDowell 


8.3.2 white 循环 

while 循环 就 像 是 延迟 了 的 repeat 循环 。 它 不 是 先 执行 代码 再 检查 循环 是 否 应 该 结束 ， 而 
是 先进 行 检查 再 (可 能 ) 执行 代码 。 因 为 检查 发 生 在 开始 时 ， 所 以 循环 体 有 可 能 不 会 被 执 
行 (5 repeat 循环 不 同 )。 在 下 例 中 ， 与 以 上 repeat 的 例子 类 似 ， 除 了 当 “Win heart of 
Andie McDowell” 被 抽 中 了 ， 剩 下 的 Groundhog Day 循环 语句 则 可 完全 避免 ; 














action <- sample( 
c( 
"Learn French", 
"Make an ice statue", 
"Rob a bank", 
"Win heart of Andie McDowell" 
)， 
1 
) 
while(action != "Win heart of Andie McDowell") 
{ 
message("Happy Groundhog Day!") 
action <- sample( 


cl 
"Learn French", 
"Make an ice statue", 
"Rob a bank", 
"Win heart of Andie McDowell" 
Js 
1 
) 
message("action = ", action) 


} 

## Happy Groundhog Day! 

## action = Make an ice statue 
## Happy Groundhog Day! 

## action = Learn French 

## Happy Groundhog Day! 

## action = Make an ice statue 


## Happy Groundhog Day! 
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## action = Learn French 
## Happy Groundhog Day! 
## action = Make an ice statue 
## Happy Groundhog Day! 
## action = Win heart of Andie McDowell 
使 用 一 些小 技巧 能 把 repeat 循环 转换 为 white JAW, IE while 循环 转换 为 loop IA 


环 ， 但 通常 使 用 其 中 一 种 语法 会 更 简洁 。 如 果 你 知道 循环 体 必 须 至 少 执行 一 次 ， 请 使 用 
repeat, ANEH while. 


8.3.3 ”for 循环 

第 三 种 循环 适用 于 已 知 代码 所 需 执行 的 循环 次 数 的 情形 。for 循环 将 接受 一 个 友 代 器 变量 
和 一 个 向 量 参 数 。 在 每 个 循环 中 ， 迭 代 器 变量 会 从 向 量 中 取得 一 个 值 。 最 简单 的 情况 下 ， 
该 向 量 只 包含 整数 : 








for(i in 1:5) message("i = ", i) 
##i=1 
## i = 2 
## i = 3 
## i = 4 
## i= 5 











如 果 你 想 执行 多 个 表达 式 ， 与 其 他 循环 一 样 ， 须 使 用 大 括号 把 它们 括 起 来 : 








for(i in 1:5) 


{ 
ja 和 TW 
message("j = ", j) 

#tj=1 

## j= 4 

## j = 9 

## j = 16 

## j = 25 


R 的 for 循环 非常 灵活 ， 因 为 它们 的 输入 并 不 限于 整数 或 数字 ， 还 可 以 传人 字符 向 量 、 逻 
辑 向 量 或 列表 : 
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for(month in month.name) 


{ 


message("The month of ", month) 


} 

## The month of January 
## The month of February 
## The month of March 

## The month of April 

## The month of May 

## The month of June 

## The month of July 

## The month of August 
## The month of September 
## The month of October 
## The month of November 


## The month of December 


for(yn in c(TRUE, FALSE, NA)) 
{ 

message("This statement is 
} 
## This statement is TRUE 
## This statement is FALSE 
## This statement is NA 


» yn) 


l <- list( 
pi, 
LETTERS[1:5], 
charToRaw( "not as complicated as it looks"), 
list( 

TRUE 

) 

) 

for(i in 1) 

{ 
print(i) 


} 


## [1] 3.142 

## [1] "A" "B" "c" "D" "g" 

## [1] 6e 6f 74 20 61 73 20 63 6f 6d 70 6c 69 63 61 74 65 64 20 61 73 20 69 
## [24] 74 20 6c 6f 6f 6b 73 

## [[1]] 

## [1] TRUE 














因为 for 循环 操作 于 向 量 中 的 每 个 元 素 ， 所 以 它 提供 了 一 种 “ 伪 向 量化 ”。 事 实 上 ，R 的 向 
量化 操作 通常 会 在 内 部 的 C 代码 中 使 用 某 种 形式 的 for 循环 。 但 要 注意 : R 的 for 循环 几 
乎 总 是 比 其 对 应 的 向 量化 运行 得 要 慢 ， 而 且 往往 是 一 到 两 个 数量 级 的 差别 。 这 意味 着 你 应 
尽 可 能 地 使 用 向 量化 ”。 








8.4 小结 


。 (EH if 与 else 可 以 有 条 件 地 执行 语句 。 
。 ifelse 是 它们 所 对 应 的 向 量化 国 数 。 
。 R 有 三 种 类 型 的 循环 : repeat, while 和 for. 


8.5 知识 测试 : 问题 
。 问题 8-1 
如 果 为 if 传 人 条 件 NA 会 发 生 什么 ? 





。 问题 8-2 

MURA ifelse EARI NA 会 发 生 什么 ? 

。 问题 8-3 

什么 类 型 的 变量 可 以 作为 switch 函数 的 第 一 个 参数 传 入 ? 





。 问题 8-4 
如 何 中 断 一 个 repeat 循环 的 执行 ? 





。 问题 8-5 
如 何 跳 转 到 循环 的 下 一 个 迭代 中 ? 


8.6 知识 测试 : 练习 

。 练习 8-1 
CEMA TPR, Sta (射手 ) ELA i, SERA i, SR 
总 数 为 2、3 或 12， 则 该 射手 失败 。 如 果 总 数 是 7 或 11， 则 对 手 〈 他 ) 胜出 。 如 果 是 其 
他 任何 得 分 ， 那 么 此 得 分 将 变 成 新 的 目标 ， 它 将 被 称 为 “点 ”。 使 用 以 下 辅助 函数 为 撕 
he AE MZ 






































two_d6 <- function(n) 


{ 


random_numbers <- matrix( 





TE2: 有 公论 的 是 ， 如 果 你 把 R 代码 编写 得 和 Fortran 一 样 ， 就 没 资格 抱怨 R 运行 得 太 慢 了 。 
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sample(6, 2 * n, replace = TRUE), 
nrow = 2 


) 


colSums(random_numbers) 


} 
Sis FU AR HERR. FRA MESS game_status 和 point 变量 : 





得 分 游戏 状态 点 
2, 3,11 FALSE NA 
7,11 TRUE NA 
4,5, 6, 8,9, 10 NA 与 得 分 相同 
[10] 
练习 8-2 


MRA EMD bn, IAAT RR I, ELE eit aE ME 
胜 ， 或 得 分 为 7 CALI. Bits CG as EER AS AE A NA, ROR eM E AE EB 
ae AE WEBS EALE (设置 game_status 为 TRUE) 或 得 分 为 7 (设置 game_status 为 
FALSE) 。[15] 





练习 8-3 
这 是 著名 的 sea shells 绕口令 : 
sea_shells <- c( 
"She", "sells", "sea", "shells", "by", "the", "seashore", 
"The", "shells", "she", "sells", "are", "surely", "seashells", 


"Son, Wr maa "She", "Sells", "shells", "on", "the", "seashore", 
"I'm", "sure", " "sells", "seashore", "shells" 


) 
使 用 nchar 函数 来 计算 每 个 单词 的 字母 数 。 现 在 ， 循 环 遍历 所 有 可 能 的 单词 长 度 ， 技 出 
所 有 与 其 长 度 相等 的 单词 。 例 如 ， 长 度 为 6 的 单词 应 该 有 shell 和 surely， 它 们 都 有 六 
个 字母 。[10] 


she", 














BIS 


高 级 循环 








R 的 循环 能 力 远 远 超 出 了 上 一 章 中 所 见 到 的 三 个 标准 循环 。 它 能 把 你 的 函数 应 用 于 向 量 、 
列表 或 数组 中 的 每 个 元 素 上 ， 因 此 你 可 以 写 出 一 般 矢 量化 所 不 能 实现 的 “ 伪 向 量化 代码 ”。 
其 他 循环 则 可 以 让 你 对 每 个 数据 块 进行 汇总 统计 。 


9.1 本 章 目 标 
阅读 本 章 后 ， 你 会 了 解 以 下 内 容 : 


。 如 何 把 函数 应 用 到 列表 或 向 量 的 每 一 个 元 素 ， 或 应 用 到 甜 阵 的 每 一 行 或 列 上 ; 
。 如 何 解 决 拆 分 -应 用 一 合并 (split-apply-combine) 的 问题 ， 
。 如 何 使 用 plyr 包 。 














9.2 replication 


第 4 章 介绍 的 rep 函数 能 把 输入 的 参数 重复 数 次 。 男 一 个 相关 函数 replicate 则 能 调用 表 
达 式 数 次 。 大 多 数 情况 下 它们 基本 相等 ， 只 有 当 使 用 随机 数 时 才 会 出 现 不 同 。 现 在 ， 假 定 
生成 均匀 分 布 随机 数 的 runif 函数 不 是 矢量 化 的 ， 那 么 rep 函数 每 次 都 将 重复 相同 的 随机 
数 ， 而 replicate 每 次 的 结果 都 不 相同 (由 于 历史 的 原因 ， 其 参数 顺序 竟然 是 从 后 到 前 的 ， 
这 有 点 烦人 ) : 




















Bs 














rep(runif(1), 5) 


## [1] 0.04573 0.04573 0.04573 0.04573 0.04573 
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replicate(5, runif(1)) 
## [1] 0.5839 0.3689 0.1601 0.9176 0.5388 


在 更 为 复杂 的 例子 中 ，repLicate 会 大 显 身手 。 例 如 ， 在 蒙特 卡 罗 (Monte Carlo) 分 析 中 一 一 
replicate 最 主要 的 用 途 ， 你 需要 重复 固定 次 数 的 分 析 过 程 且 每 次 迭代 都 是 相互 独立 的 。 
下 一 个 例子 将 分 析 某 人 上 下 班 时 使 用 不 同 交通 工具 所 花费 的 时 间 。 这 有 些 复 杂 ， 不 过 这 是 
为 了 展示 replicate 的 作用 ， 它 非常 适合 于 这 种 场景 。 

time_for_commute 国 数 用 sample 随机 挑选 一 种 交通 工具 (小 汽车 、 公 交 车 或 自行 车 )， 然 
后 用 rnorm 或 rlnorn 找到 一 个 正 态 分 布 或 对 数 正 态 分 布 ' 的 行程 时 间 (具体 参数 取决 于 所 
选 的 交通 工具 )。 




















time_for_commute <- function() 


{ 
# 选择 当时 所 用 的 交通 工具 
mode_of_transport <- sample( 
c("car", "bus", "train", "bike"), 
size = 1, 
prob = c(0.1, 0.2, 0.3, 0.4) 


) 
# 根据 交通 工具 ， 找 到 出 行 的 时 间 
time <- switch( 
mode_of_transport, 
car = rlnorm(1, log(30), 0.5), 
bus = rlnorm(1, log(40), 0.5), 
train = rnorm(1, 30, 10), 
bike = rnorm(1, 60, 5) 
) 
names(time) <- mode_of_transport 
time 


} 


switch 语句 的 存在 使 得 这 个 函数 很 难 被 向 量化 。 这 意味 着 : 为 了 找到 上 下 班 时 间 的 分 布 ， 
我 们 需要 多 次 调用 time_for_commute 来 生成 每 天 的 数据 。replicate 使 我 们 能 即刻 进行 向 
量化 : 

















replicate(5, time_for_commute()) 


## bike car train bus bike 
## 66.22 35.98 27.30 39.40 53.81 


9.3 遍历 列表 


现在 ,你 已 经 注意 到 向 量化 在 R 中 无 处 不 在 。 事 实 上， 你 会 很 自然 地 选择 编写 向 量化 代 
码 。 因 为 它 使 代码 看 上 去 更 精简 ， 且 与 循环 相 比 它 的 性 能 更 好 。 不 过 ， 在 某 些 情况 下 ， 保 


llig 














注 1: 对 数 正 态 分 布 偶尔 会 抛 出 非常 大 的 数字 ， 从 而 接近 高 峰 期 塞车 。 
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持 矢 量化 意味 着 控制 代码 的 方式 不 太 自 然 。 此 时 ，apply 系列 的 函数 能 





“ 伪 矢 量化 ””。 


E, Ave 


HIF] 


自然 地 让 你 进行 





单 且 常 用 的 成 员 函 数 是 Lapply， 它 是 “list apply” 的 缩写 。lapply 的 输入 参数 是 某 个 


函数 ， 此 函数 将 依次 作用 于 列表 中 的 每 个 元 素 上 ， 并 将 结果 返回 到 另 一 个 列表 中 。 回 忆 一 
下 第 5 章 介 绍 的 质 因数 分 解 列表 : 


以 向 量化 的 方式 在 每 个 列表 元 素 中 搜索 唯一 


prime_factors <- list( 
two = 2, 
three = 3, 
four: = e(2; 2); 
five = 5, 
six = ¢(2, 3); 
seven = 7, 
eight = c(2, 2, 2), 
nine = c(3, 3), 
ten = c(2, 5) 

) 


head(prime_factors) 


## Stwo 

## [1] 2 
#H 

## Sthree 
## [1] 3 


## Sfive 
## [1] 5 
#H 

## Ssix 
## [1] 2 3 
#H 

## Sseven 
## [1] 7 





—. 

















逐个 地 检查 元 素 ， 但 这 种 方法 有 点 笨拙 : 


unique_primes <- vector("list", length(prime factors)) 
for(i in seq_along(prime_factors)) 
{ 


unique_primes[[i]] <- unique(prime_factors[[i]]) 


names(unique_primes) <- names(prime_factors) 
unique_primes 











仅 使 代码 更 可 读 。 





直 是 很 难 做 到 的 。 我 们 可 以 写 一 个 for 循环 来 


: 由 于 向 量化 发 生 在 R 语言 的 级 别 , 而 非 通 过 调用 内 部 的 C 代码 实现 , 所 以 它 不 能 帮 你 得 到 更 好 的 性 能 ， 








## Stwo 
## [1] 2 
## 

## Sthree 
## [1] 3 
HH 

## Sfour 
## [1] 2 
## 

## Sfive 
## [1] 5 
HH 

## Ssix 
## [1] 2 3 
## 

## Sseven 
## [1] 7 
## 

## Seight 
## [1] 2 
## 

## Snine 
## [1] 3 
HH 

## Sten 
## [1] 2 5 


Lapply 大 大 简化 了 这 种 操作 ， 你 无 需 再 用 那些 陈 腔 滥 调 的 代码 来 进行 长 度 和 名 称 检查 : 
lapply(prime_factors, unique) 


## Stwo 
## [1] 2 
## 

## Sthree 
## [1] 3 
## 

## Sfour 
## [1] 2 
## 

## Sfive 
## [1] 5 
HH 

## Ssix 
## [1] 2 3 
HH 

## Sseven 
## [1] 7 
## 

## Seight 
## [1] 2 
## 

## Snine 
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## Sten 
## [1] 2 5 











如 果 函 数 的 每 次 返回 值 大 小 相同 ， 且 你 知 其 大 小 为 多 少 ， 那 么 你 可 以 使 用 Lappty 的 变种 
vapply。vapply 的 含义 是 : 应 用 于 (apply) 列表 而 返回 向 量 (vector)。 和 前 面 一 样 ， 它 的 
输入 参数 是 一 个 列表 和 函数 ， 但 vapply 还 需要 第 三 个 参数 ， 即 返回 值 的 模板 。 它 不 直接 返 
回 列表 ， 而 是 把 结果 简化 为 向 量 或 数组 : 


























vapply(prime_factors, length, numeric(1)) 


## = two three four five six seven eight nine ten 
## 1 1 2 1 2 1 3 2 2 


如 果 输 出 不 能 匹配 模板 ， 那 么 vapply 将 抛 出 一 个 错误 
它 输出 的 每 个 元 素 必 须 大 小 相同 且 必 须 事 先 就 知道 。 





vapply 不 如 lapply 灵活 ， 因 为 




















还 有 一 种 介 于 Lapply 和 vapply 之 间 的 函数 sapply， 其 含义 为 : 简化 (simplfy) 列表 应 用 。 
与 其 他 两 个 函数 类 似 ，sapply 的 输入 参数 也 是 一 个 列表 和 函数 。 它 不 需要 模板 ， 但 它 会 尽 
可 能 地 把 结果 简化 到 一 个 合适 的 向 量 和 数组 中 : 








sappLy(prime_factors，unique) “ # 返 回 一 个 列表 


## Stwo 
## [1] 2 


## Sthree 
## [1] 3 


## Sseven 
## [1] 7 
#H 

## Seight 
## [1] 2 
#H 

## Snine 


## Sten 
## [1] 2 5 








sapply(prime_factors, length) # 返 回 一 个 向 量 


## two three four five six seven eight nine ten 
He 1 1 2 1 2 1 3 2 2 





sapply(prime_factors, summary) # 返 回 一 个 数组 


#H two three four five six seven eight nine ten 
## Min. 2 3 2 5 2.00 T 2 3 2.00 
## 1st Qu. 2 3 2 5 2.25 7 2 3.2.75 
## Median 2 3 2 5 2.50 7 2 3 3.50 
## Mean 2 3 2 5 2.50 7 2 3 3.50 
## 3rd Qu. 2 3 2 5: 22/5 7 2 3 4.25 
## Max. 2 3 2 5 3.00 7 2 3 5.00 

















这 非常 适合 于 交互 式 的 应 用 ， 因 为 你 通常 能 自动 地 得 到 想 要 的 形式 。 不 过 ， 如 果 你 不 太 确 
定 输入 的 是 什么 ， 那 就 要 谨慎 使 用 此 函数 。 因 为 它 的 结果 有 时 是 一 个 列表 ， 有 时 一 个 向 
量 ， 会 使 你 不 知 不 觉 地 出 错 。 之 前 的 length 的 例子 返回 一 个 向 量 。 现 在 ， 给 它 传 入 一 个 空 
列表 时 ， 看 看 会 发 生 什么 : 











sapply(list(), length) 
## list() 


如 果 输 入 列表 中 的 长 度 为 零 ， 无 论 函 数 传 入 了 什么 参数 ，sapply 总 会 返回 一 个 列表 。 因 
此 ， 如 果 你 的 数据 是 空 的 且 你 已 知 其 返回 值 ， 使 用 vapply SEA: 























vapply(list(), Length, numeric(1)) 
## numeric(0) 


虽然 这 些 函 数 主要 和 列表 一 起 使 用 ， 但 它们 也 可 以 接受 向 量 为 输入 参数 。 在 这 种 情况 下 ， 
国 数 被 依次 应 用 到 向 量 中 的 每 个 元 素 上 。source 函数 用 于 读 取 和 访问 R 文件 的 内 容 ( 即 可 
以 用 它 来 运行 了 脚本 )。 不 幸 地 ， 它 不 是 向 量化 的 。 因 此 ， 如 果 想 运行 某 个 目录 下 的 所 有 
R 脚本 ， 我 们 需要 先 把 目录 中 的 内 容 都 转换 到 列表 中 再 传 给 Lapply。 


AEP BI, dir 函数 返回 在 指定 目录 中 的 文件 名 ， 默 认为 当前 工作 目录 (回忆 一 下 ， 你 可 
以 用 getwd 找到 它 )。 参 数 pattern="\\.R$" 的 含义 为 : 只 返回 以 .R 为 后 绥 的 文件 名 : 









































r_files <- dir(pattern = "\\.R$") 

lapply(r_files, source) 
你 可 能 已 经 注意 到 ， 在 所 有 的 例子 中 ， 传 到 Lapply. vapply 和 sapply 的 函数 都 只 
参数 。 这 些 函数 限制 你 只 能 传 入 一 个 向 量化 的 参数 〈 稍 后 会 谈 到 如 何 规避 此 限制 )， Pa 
可 为 其 传人 其 他 的 标量 参数 。 为 此 ， 只 需 把 命名 参数 传递 给 Lapply (或 sapply、vapply)， 
它们 就 会 被 传递 到 内 部 函数 。 例 如 ， 如 果 rep.int 需要 两 个 参数 ， 而 times 参数 只 允许 单 
个 的 (标量) 数值 ， 你 可 以 输入 : 















































complemented <- c(2, 3, 6, 18) # 人 参见 http://oeis.org/A000614 
Lapply(complemented, rep.int, times = 4) 


## [[1]] 
## [1] 2222 


## [[2]] 
## [1] 33.33 


## [[3]] 
## [1] 6 6 6 6 





## [[4]] 
## [1] 18 18 18 18 
如 果 问 量 参数 不 是 第 一 个 ， 那 会 如 何 ? 在 这 种 情况 下 ， 我 们 需要 自 定义 一 个 函数 来 封装 那 
个 真正 想 调 用 的 函数 。 为 此 ， 你 可 以 另 起 一 行 。 但 更 常见 的 做 法 是 把 函数 的 定义 包括 在 
lapply 的 调用 中 : 


rep4x <- function(x) rep.int(4, times = x) 
lapply(complemented, rep4x) 


## [[1]] 
## [1] 4 4 


## [[2]] 
## [1] 444 


## [[3]] 
## [1] 444444 





## [[4]] 
## [1] 444444444444444444 


通过 把 匿名 函数 传 给 Llapply， 我 们 可 以 继续 简化 以 上 的 代码 。 这 是 第 五 章 所 谈 到 的 技巧 : 
我 们 无 需 男 起 一 行 就 能 完成 赋值 操作 ， 只 要 把 函数 传递 给 lapply 即 可 ， 连 名 字 都 不 需要 : 
lapply(complemented, function(x) rep.int(4, times = x)) 


## [[1]] 
## [1] 4 4 


## [[2]] 
## [1] 444 


## [[3]] 
##[1] 444444 





## [[4]] 
##[1]444444444444444444 





在 极 个 别 的 情况 下 ， 你 可 能 需要 循环 遍历 环境 (而 非 列表 ) 中 每 个 变量 。 对 此 ， 你 可 以 使 





用 专门 的 函数 eappLy。 当 然 ， 在 最 新 版 本 的 R 中 ， 你 也 可 以 使 用 Lapply: 





env <- new.env() 

env$molien <- c(1, 0, 1, 0, 1, 1, 2, 1, 3) # 人 参见 http: //oeis.org/A008584 
envSlarry <- c("Really", "leery", "rarely", "Larry") 

eapply(env, Length) 


## Smolien 
## [1] 9 

HH 

## Slarry 
## [1] 4 


lapply(env, length) # 一 样 的 





## Smolien 

## [1] 9 

## 

## Slarry 

## [1] 4 
rapply 是 Lapply KAANE, ELPRE EREI. KET PRA SER, H. 
如 果 事 先 使 用 unlist 将 数据 扁平 化 就 会 使 代码 变 得 更 简单 。 


9.4 遍历 数组 

lapply 和 它 的 小 伙伴 vapply 与 sapply 都 可 用 于 阜 阵 和 数组 上 ， 但 它们 的 行为 往往 不 是 我 
们 想 要 的 。 这 三 个 函数 把 矩阵 和 数组 看 作 向 量 ， 将 目标 函数 作用 于 每 个 元 素 上 ( 沿 列 往 下 
移动 )。 而 更 为 常见 的 是 ， 当 要 把 函数 作用 于 一 个 数组 时 ， 我 们 希望 能 按 行 或 列 应 用 它们 。 
下 面 的 例子 使 用 matlab 包 ， 提 供 了 对 手语 言 所 有 具备 的 功能 。 


要 运行 下 例 ， 首 先 需要 安装 matlab 程序 包 : 























install.packages("matlab") 


library(matlab) 

## Attaching package: 'matlab' 

## The following object is masked from 'package:stats': 
## reshape 

## The following object is masked from 'package:utils': 
## find, fix 


## The following object is masked from 'package:base': 


## sum 
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ee 当 你 装载 matlab 包 时 ， 它 会 覆盖 一 些 在 base、stats 和 utils 包 中 的 国 数 
ae 
| 





， 能 会 想 恢复 以 前 的 行为 ， 这 可 以 通过 调用 detach("package:matlab") 来 完成 


> 


ss 全， 把 它们 的 行为 重 载 成 MATLAB 中 相应 函数 的 行为 。 当 使 用 完 matlab 包 ， 你 可 


o 


magic 国 数 将 创建 一 个 f 方 阵 : nxn AY, DA HEB n^2 的 数字 矩阵 ， 甚 行 数 和 列 数 相 等 


(magic4 <- magic(4)) 


Ht [.1] [.2] [.3] [.4] 
##[1,] 16 2 3 B 
##[2,] 5 11 10 8 
##([3,] 9 7 6 12 
##[4,] 4 14 15 1 


一 个 需要 我 们 把 函数 应 用 到 每 行 上 的 经 典 问题 一 一 计算 行 的 总 数 ， 可 以 由 在 第 五 章 中 
介绍 的 rowSums 函数 来 实现 . 


rowSums(magic4) 


## [1] 34 34 34 34 


























然而 ， 如 果 要 计算 每 行 的 其 他 统计 值 ， 该 如 何 实现 ?要 提供 一 个 函数 来 实现 所 有 可 能 
能 将 是 非常 麻烦 的 “。appty 函数 提供 了 类 似 的 按 行 / 列 计算 的 等 效 函 数 ， 它 以 一 个 甸 














简要 


的 功 
EBE, 





维 数 和 函数 作为 参数 。 维 数 为 1 代表 把 函数 应 用 于 每 一 行 ，2 代表 把 函数 应 用 于 每 
(或 更 大 的 数字 代表 更 高 维 的 数组 ) : 

apply(magic4, 1, sum) # 与 rowSums 相同 

## [1] 34 34 34 34 

apply(magic4, 1, toString) 

## [1] "16, 2, 3, 13" "5, 11, 10, 8" "9, 7, 6, 12" "4, 14, 15, 1" 

apply(magic4, 2, toString) 

## [1] "16, 5, 9, 4" "2, 11, 7, 14" "3, 10, 6, 15" "13, 8, 12, 1" 


apply 也 可 用 于 数据 框 ， 尽 管 对 于 这 种 混合 的 数据 类 型 来 说 不 太 常 见 〈 例 如 ， 如 果 其 
一 列 是 字符 类 型 的 ， 很 显然 你 不 能 在 它 上 面 计算 总 和 或 乘积 ) : 






































(baldwins <- data.frame( 
name = c("Alec", "Daniel", "Billy", "Stephen"), 
date_of_birth = él 
"1958-Apr-03", "1960-Oct-05", "1963-Feb-21", "1966-May-12" 
); 


n_spouses = c(2, 3, 1, 1), 





ty 
mH 





E3: 尽管 matrixstats 包 试 图 这 样 做 。 





一 列 


中 有 





n_children = c(h; 55.35 2); 
stringsAsFactors = FALSE 
)) 
#H name date_of_birth n_spouses n_children 
## 1 Alec 1958-Apr-03 2 1 
## 2 Daniel 1960-Oct-05 3 5 
## 3 Billy 1963-Feb-21 1 3 
## 4 Stephen 1966-May-12 1 2 


apply(baldwins, 1, toString) 


## [1] "Alec, 1958-Apr-03, 2, 1" "Daniel, 1960-Oct-05, 3, 5" 
## [3] "Billy, 1963-Feb-21, 1, 3" "Stephen, 1966-May-12, 1, 2" 


apply(baldwins, 2, toString) 


## name 
## "Alec, Daniel, Billy, Stephen" 
#H date_of_birth 
## "1958-Apr-03, 1960-Oct-05, 1963-Feb-21, 1966-May-12" 
BS n_spouses 
## 2 35, Ly 2" 
#H n_children 
## M1, 5503, 2" 


当 你 把 函数 按 列 地 应 用 于 数据 框 上 ，apply 与 sapply 的 行为 相同 〈 记 住 ， 数 据 框 可 被 认为 
是 非典 套 的 列表 ， 其 中 的 元 素 都 具有 相同 的 长 度 ) : 





sapply(baldwins, toString) 


## name 
## "Alec, Daniel, Billy, Stephen" 
## date_of_birth 
## "1958-Apr-03, 1960-Oct-05, 1963-Feb-21, 1966-May-12" 
#H n_spouses 
## "23. 3 Ly 2° 
#H n_children 
## PEs Sy ay 2" 

















当然 ， 如 果 仅 仅 打 印 不 同 的 形式 数据 集 ， 你 无 法 充分 感受 到 它 的 趣味 性 。 另 一 方面 ， 将 
sapply 与 range 结合 使 用 能 非常 迅速 地 确定 你 的 数据 范围 : 





sapply(baldwins, range) 


i oe date_of_birth n_spouses n_children 
## [1,] "Alec" "1958-Apr-03" "1" "J" 
## [2,] "Stephen" "1966-May-12" "3" ngo 


95 多 个 输入 的 应 用 函数 


Lapply 的 缺点 之 一 是 它 的 国 数 参 数 只 能 循环 作用 于 单个 向 量 参数 。 另 一 个 缺点 是 : 对 于 作 
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用 于 每 个 元 素 的 函数 ， 你 不 能 访问 该 元 素 的 名 称 。 

mapply 是 “多 参数 列表 应 用 ”(multiple argument list apply) 的 简称 ， 它 能 让 你 传 入 尽 可 能 
多 的 向 量 作为 参数 ， 这 解决 了 上 面 的 第 一 个 问题 。 和 常见 的 用 法 是 传 入 一 个 列表 ， 再 传 入 另 
一 个 列表 作为 前 者 的 名 字 ， 这 就 解决 了 第 二 个 问题 。 有 点 烦人 的 是 ， 为 了 容纳 任意 数目 的 
向 量 参数 ， 参 数 的 顺序 被 改变 了 。 对 于 mapply， 每 一 个 传递 的 参数 都 是 函数 : 


msg <- function(name, factors) 


{ 
ifelse( 
length(factors) == 1, 
paste(name, "is prime"), 
paste(name, "has factors", toString(factors)) 
) 
} 
mapply(msg, names(prime_factors), prime_factors) 
#H two three 
#H "two is prime" "three is prime" 
## four five 
## "four has factors 2, 2" "five is prime" 
#H six seven 
#H "six has factors 2, 3" "seven is prime" 
#H eight nine 
## "eight has factors 2, 2, 2" "nine has factors 3, 3" 
Be ten 
#H "ten has factors 2, 5" 


在 默认 情况 下 ，mapply 与 sapply 的 表现 相同 ， 且 会 尽量 地 简化 输出 。 通 过 传递 参数 
SIMPLIFY = FALSE 可 以 关闭 此 行为 (使 它 表现 得 更 像 LapptLy ) 。 








即时 向 量化 (instant Vectorization) 

Vectorize 是 mapply 的 包装 国 数 。 通 常 它 接受 一 个 标量 作为 输入 参数 ， 并 返回 一 个 新 的 接 
受 向 量 的 函数 。 下 一 个 函数 不 是 向 量化 的 ， 因 为 它 使 用 了 switch， 而 这 需要 它 的 输入 参数 
为 标量 : 














baby_gender_report <- function(gender) 


switch( 
gender, 
male = "It's a boy!", 
female = "It's a girl!", 
"UMs cai” 
) 
} 


如 果 把 向 量 传 入 到 函数 中 ， 则 会 抛 出 一 个 错误 : 








genders <- c("male", "female", "other") 
baby_gender_report(genders) 


从 理论 上 说 ， 完 全 可 以 重 写 一 个 国 数 ， 使 它 变 成 向 量化 的 。 但 更 简单 的 方法 是 使 用 Vectorize 
国 数 : 








vectorized_baby_gender_report <- Vectorize(baby_gender_report) 
vectorized_baby_gender_report(genders) 


#H male female other 
## "It's a boy!" "It's a girl!" "Um..." 


9.6” 拆 分 一 应 用 一 合并 〈Split-Apply-Combine ) 


在 研究 数据 时 一 个 很 常见 的 问题 是 : 如 何 对 那些 已 被 分 成 不 同 小 组 的 变量 进行 统计 计算 。 
以 下 是 经 典 的 道路 交通 安全 游戏 Frogger 的 得 分 情况 : 











(frogger_scores <- data.frame( 
player = rep(c("Tom", "Dick", "Harry"), times = c(2, 5, 3)), 
score = round(rlnorm(10, 8), -1) 


)) 

## player score 
## 1 Tom 2250 
## 2 Tom 1510 
## 3 Dick 1700 
## 4 Dick 410 
## 5 Dick 3720 
## 6 Dick 1510 
## 7 Dick 4500 
## 8 Harry 2160 
## 9 Harry 5070 
## 10 Harry 2930 


计算 每 个 玩家 的 平均 得 分 需要 三 个 步骤 。 首 先 ， 我 们 按 玩家 来 分 开 数据 集 : 





(scores_by_player <- with( 
frogger_scores, 
split(score, player) 

)) 


## SDick 

## [1] 1700 410 3720 1510 4500 
## 

## SHarry 

## [1] 2160 5070 2930 

## 

## STom 

## [1] 2250 1510 


然后 ， 我 们 将 (mean) 函数 应 用 于 每 个 元 素 : 
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(list_of_means_by_player <- lapply(scores_by_player, mean)) 


## SDick 
## [1] 2368 
#H 

## SHarry 
## [1] 3387 
#H 

## $Tom 

## [1] 1880 

















最 后 ， 我 们 把 结果 合并 到 单个 向 量 中 : 
(mean_by_player <- unlist(list_of_means_by_player)) 


## Dick Harry Tom 
## 2368 3387 1880 


如 果 使 用 vapply 或 sappLy， 最 后 两 个 步骤 可 简化 成 一 步 ， 但 拆 分 一 应 用 -合并 是 如 此 和 常 
用 ， 所 以 我 们 必须 简化 它 。 方 法 就 是 使 用 tapply 国 数 ， 它 能 一 次 执行 所 有 的 三 个 步骤 ， 一 
气 呵 成 : 

with(frogger_scores, tapply(score, player, mean)) 


## Dick Harry Tom 
## 2368 3387 1880 











还 有 几 个 其 他 的 tapply 包装 函数 ， 例 如 by 和 aggregate。 它 们 的 功能 相同 ， 但 接口 稍 有 不 同 。 





Wa 
43 | SQL 的 粉丝 可 能 会 注意 到 ， 拆 分 一 应 用 一 合并 其 实 就 是 GROUP BY 操作 。 
oe A ` 





9.7 plyr 包 


*apply 国 数 家 族 都 很 强大 ， 但 三 个 缺点 使 得 它们 不 是 那么 易 用 。 首 先 ， 名 字 有 点 星 雇 。 
在 lapply F, “I” 代表 list 是 可 理解 的 ， 但 是 ， 即 便 是 使 用 R 长 达 9 年 的 我 ， 也 不 知道 
tapply PHY “t” 代表 什么 。 


其 次 ， 参 数 的 使 用 不 完全 一 致 。 大 多 数 的 国 数 都 以 数据 对 象 为 首 个 参数 ， 国 数 为 第 二 参 
数 。 但 mapply 的 顺序 却 与 此 相反 ， 而 tapply 还 要 加 上 一 个 函数 作为 它 的 第 三 个 参数 。 数 
据 参 数 有 时 是 X， 有 时 是 object; 而 简化 参数 有 时 是 simplify， 有 时 是 SIMPLIFY. 


第 三 ， 输 出 的 形式 不 太 可 控 。 如 果 要 把 结果 作为 数据 框 返回 或 丢弃 它 ， 都 需要 花 一 些 心思 
才能 做 到 。 


这 时 ，plyr 包 就 派 上 用 场 了 。 它 包含 一 系列 名 为 **ply 的 函数 ， 其 中 的 空格 CS) 分 别 





























代表 输 入 和 输 昌 Ani HAY 形式 ° 
并 返 


laply 以 一 个 列表 作为 参数 ， 并 返回 


会 智能 地 返回 一 


raply 能 取代 replicate (不 是 rapply!), 








回 一 个 列表 ， 这 使 它 成 为 Lapply 的 一 个 替代 函数 : 


library(plyr) 
Llply(prime_factors, unique) 


## Stwo 
## [1] 2 
## 

## Sthree 


## Sseven 
## [1] 7 
## 

## Seight 
## [1] 2 
## 

## Snine 


## Sten 
## [1] 2 5 





个 空 的 逻辑 向 量 (与 返 





laply(prime_factors, Length) 
##[1] 112121322 
laply(list(), length) 


## Logical(0) 





例如 ，LLpty 的 输入 参数 是 列表 ， 


它 将 函数 应 用 于 每 个 元 素 上 ， 


ee » Eth 
空 列表 的 sapply 不 一 样 ) : 


还 有 rlply 和 rdply 函数 能 分 别 返 回 列表 或 数据 








框 ， 还 有 一 个 r_ply 函数 能 丢弃 结果 (在 绘图 时 有 用 ) : 
raply(5, runif(1)) # 数组 输出 
## [1] 0.009415 0.226514 0.133015 0.698586 0.112846 
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rlply(5, runif(1)) # 列表 给 出 





## [[1]] 
## [1] 0.6646 


## [[2]] 
## [1] 0.2304 


## [[3]] 
## [1] 0.613 


## [[4]] 
## [1] 0.5532 





## [[5]] 
## [1] 0.3654 


rdply(5, runif(1)) # 数据 框 输出 


## .nN V1 
## 1 1 0.9068 
## 2 2 0.0654 
## 3 3 0.3788 
## 4 4 0.5086 
## 5 5 0.3502 


r_ply(5, runif(1)) # 丢弃 输出 
## NULL 
也 许 plyr 包 中 最 常用 的 函数 是 ddply， 它 的 输入 和 输出 都 是 数据 


数 。 其 优点 是 易于 同时 计算 多 个 列 。 以 下 让 我 们 为 Frogger 数据 
来 表示 玩家 在 游戏 中 达到 的 级 别 : 





frogger_scores$level <- floor(log(frogger_scores$score)) 


调用 ddply 的 方法 有 好 几 种 。 这 些 方法 的 参数 都 包括 一 个 数据 框 、 





E, “ERTL tapply 国 
集 添加 一 个 Level Fl, FA 


要 进行 拆 分 的 列 的 名 称 ， 


以 及 要 应 用 到 每 个 元 素 上 的 函数 。 传 递 列 时 无 需 引 号 ， 但 需要 包含 在 . 的 调用 之 后 。 


对 于 函数 ， 你 既 可 以 使 用 colwise 告诉 ddply 调用 函数 应 用 于 每 一 列 (除了 第 二 个 参数 以 


外 )， 也 可 以 使 用 summarize 对 指定 的 列 进行 操作 : 


ddply( 

frogger_scores, 

.(player), 

colwise(mean) # 除了 player 之 外 ， 对 每 个 列 调用 mean 函数 
) 





## player score level 
## 1 Dick 2368 7.200 
## 2 Harry 3387 7.333 
## 3 Tom 1880 7.000 





ddply( 
frogger_scores, 
. (player), 
summarize, 
mean_score = mean(score), # 对 score 调用 mean 
max_level = max(level) #... PRA Level 的 max 值 


) 

## = player mean_score max_level 
## 1 Dick 2368 8 
## 2 Harry 3387 8 
## 3 Tom 1880 T 


使 用 colwise 指定 时 会 更 快 ， 但 你 必须 对 每 一 列 重 复 同样 的 
但 你 需要 输入 更 多 内 容 。 


In 





事情 ， 而 summarize 更 灵活 ， 


mapply 没有 直接 的 替代 国 数 ， 尽 管 m*ply 函数 允许 对 多 个 参数 进行 循环 。 同样，vapply 和 
rapply 也 没有 赫 代 函数 。 





9.8 小 结 


。 apply 函数 家 族 能 使 循环 语句 更 简洁 。 
。 当 你 要 把 数据 进行 分 组 时 ， 拆 分 一 应 用 一 合并 的 问题 是 很 常见 的 。 
。 对 于 大 多 数 apply 函数 来 说 ，plyr 包 提 供 了 相应 的 替代 函数 且 在 语法 上 更 为 简洁 。 


9.9 知识 测验 : 问题 
。 问题 9-1 
列 出 尽 可 能 多 的 apply 函数 家 族 中 的 成 员 函 数 。 








。 问题 9-2 
lapply、vapply 和 sapply 之 间 的 区 别 是 什么 ? 





。 问题 9-3 

你 会 如 何 遍 历 树 状 数据 ? 

。 问题 9-4 

如 果 有 一 些 身 高 的 数据 ， 如 何 按 性 别 计算 平均 高 度 ? 











。 问题 9-5 
在 plyr @ 4, **ply 中 的 星 号 意味 着 什么 ? 








9.10 ”知识 测试 : 练习 


。 练习 9-1 
遍历 名 人 Wayans 家 族 中 的 儿童 列表 。Wayans 家 庭 中 每 一 代 人 有 多 少 个 儿童 ? 


wayans <- list( 
"Dwayne Kim" = list(), 
"Keenen Ivory" = list( 
"Jolie Ivory Imani", 
"Nala", 
"Keenen Ivory Jr", 
"Bella", 
"Daphne Ivory" 
); 
Damon = list( 
"Damon Jr", 
"Michael", 
"Cara Mia", 
"Kyla" 
); 
Kim = list(), 
Shawn = list( 
"Laila", 
"Tllia", 
"Marlon" 
Js 
Marlon = list( 
"Shawn Howell", 
"Arnai Zachary" 
Js 
Nadia = list(), 
Elvira = list( 
"Damien", 
"Chaunté" 
Js 
Diedre = list( 
"Craig", 
"Gregg", 
"Summer", 
"Justin", 
"Jamel" 
); 
Vonnie = list() 


) 
[5] 


。 练习 9-2 
state.x77 是 R 提供 的 一 个 数据 集 ， 它 包含 了 关于 美国 各 州 的 人 口 、 收 入 和 其 他 信息 。 
输入 它 的 名 字 就 可 以 看 到 它 的 值 ， 和 你 自己 创建 数据 集 一 样 : 


state.x77 








(1) 使 用 你 在 第 三 章 学 到 的 方法 检查 数据 集 。 





(2) 计算 
[10] 


练习 9-3 


上 每 一 列 的 平均 值 和 标准 差 。 








回顾 本 章 前 面部 分 介绍 的 time_for_commute 国 数 。 计 算 在 75% 位 数 的 上 下 班 时 间 ， 按 


不 同 的 交 


commute 

commute 
time 
mode 


) 
[5] 








通 工 具 分 组 : 


_times <- replicate(1000, time_for_commute()) 
_data <- data.frame( 

= commute_times, 

= names(commute_times) 





第 10 章 





R 中 的 软件 包 并 不 仅仅 由 R 核心 团队 开发 ， 更 确切 地 说 ， 是 整个 社区 的 努力 使 我 们 有 成 
千 上 万 的 插件 包 可 用 于 扩展 。 目 前 ， 大 部 分 的 包 都 安装 在 名 为 CRAN (Comprehensive R 
Archive Network ) 的 在 线 资源 库 中 ， 它 由 R 核心 团队 维护 。 学 会 如 何 安装 及 使 用 这 些 插 
件 包 是 R 体验 的 一 个 重要 部 分 。 
在 第 9 章 中 ， 我 们 介绍 了 plyr 包 。 在 本 书 接 下 来 的 部 分 ， 我 们 将 学 习 更 多 的 公共 包 。 例 
如 ， 用 于 日 期 和 时 间 操 作 的 lubridate 包 、 用 于 导入 Excel 文件 的 xLsx， 用 于 操作 数据 框 
的 reshape2、 用 于 绘图 的 ggplot2， 以 及 很 多 其 他 的 包 ”。 


10.1 本 章 目标 
读 完 本 章 后 ， 你 会 了 解 以 下 内 容 : 


。 如 何 加 载 安装 在 机 器 上 的 包 ， 
。 如 何 从 本 地 文件 或 互联 网 安装 新 的 包 ， 
。 如 何 管理 你 电脑 上 的 包 。 


10.2 mee 


你 可 以 使 用 Library 函数 来 加 载 电 脑 上 那些 已 经 安装 的 包 。 但 公认 的 更 好 的 选择 是 使 用 









































注 1: 参照 了 CPAN 的 命名 方式 ，Comprehensive Perl Archive Network。 
注 2: 你 可 以 在 R-statistics blog 上 (http://www.r-statistics.com/2013/06/top-100-r-packages-for-2013-jan-may) 
中 找到 一 系列 最 流行 的 包 。 
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Load_package， 它 可 以 避免 很 多 混 消 。 然 而 ， 因 为 library 函数 存在 太 久 了 ， 现 在 改变 习 
为 时 已 晚 。 就 术语 来 说 ， 包 (package) 是 一 系列 R 函数 和 数据 集 的 集合 ， 库 (library) 


你 电脑 上 文件 夹 ， 而 包 就 存储 于 文 伯 




















F 夹 内 的 文件 中 。 








tt 


= 
AE 


如 果 你 有 一 个 标准 版 本 的 R 一 一 也 就 是 说 ， 你 还 没有 从 R 的 源 代码 构建 自 定 义 的 R 版 





本 IBA lattice 包 已 经 被 默认 安装 了 ,但 它 不 会 
数 加 载 它 : 
library(lattice) 








自动 加 载 。 我 们 可 以 使 用 library FK 


现在 ， 我 们 可 以 使 用 所 有 由 lattice 包 所 提供 的 函数 。 例 如 ， 图 10-1 显示 了 著名 的 Immer’s 



































barley 数据 集 的 点 状 图 。 
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10-1; Immers barley 数据 集 点 状 图 





注 3: 请 注意 ，R-help 邮件 列表 中 的 一 些 人 士 认 为 把 这 两 个 术语 混 清 是 罪 大 恶 极 的 。 
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dotpLot( 
variety ~ yield | site, 
data = barley, 
groups = year 


) 
Va 
as | lattice 包 将 在 第 14 章 详细 讨论 。 
eo x 
ASN 





请 注意 ， 包 的 名 称 在 传递 给 Library 库 时 并 不 需要 被 引号 括 起 来 。 如 果 你 想 用 编程 方式 把 
包 的 名 字 传 递 给 Library， 可 以 设置 参数 character.only = _ TRUE。 如果 你 有 很 多 的 包 需 要 
加 载 ， 这 会 有 些 用 处 : 








pkgs <- c("Lattice", "utils", "rpart") 
for(pkg in pkgs) 


Llibrary(pkg, character.only = TRUE) 
} 


如 果 你 使 用 Library 来 加 载 一 个 未 安装 的 包 ， 它 会 抛 出 一 个 错误 。 如 果 你 想 用 不 同 的 方式 
来 处 理 这 种 情况 ， 可 以 试 试 require 函数 。 和 library —##, require 会 加 载 一 个 包 ， 不 过 
它 不 会 抛 出 一 个 错误 而 是 通过 判断 包 是 否 被 成 功 加 载 而 返回 TRUE 或 FALSE: 
if(!require(apackagethatmightnotbeinstalled) ) 
warning(""The package 'apackagethatmightnotbeinstalled' is not available.") 
# 或 者 尝试 去 下 载 它 
#... 
} 


10.2.1 搜索 路 径 


你 可 以 使 用 search 函数 查看 所 有 已 加 载 了 的 包 : 


search() 

## [1] ".GlobalEnv" "package:stats" "package:graphics" 
## [4] "package:grDevices" "package:utils" "package:datasets" 
## [7] "package:methods" '"Autoloads" "package: base" 


这 个 列表 显示 : R 是 在 哪里 、 以 什么 顺序 搜索 变量 的 。 全 局 环境 永远 都 是 第 一 位 的 ， 基 次 
是 最 近 加 载 的 包 。 最 后 两 个 值 ， 一 个 是 特殊 的 始终 被 称 为 Autoloads 的 环境 ， 另 一 个 是 
base 包 。 当 你 在 全 局 环境 中 定义 了 一 个 名 为 var 的 变量 ， 在 它 从 stats 包 中 找到 常用 的 
方差 国 数 之 前 ，R 会 首先 在 全 局 环境 中 发 现 它 ， 因 为 全 局 环境 始终 在 搜索 列表 的 最 前 面 。 
当 你 创建 任何 环境 (参加 第 6 章 ) 时 ， 它 们 也 会 出 现在 搜索 路 径 中 。 
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10.2.2” 库 和 已 安装 的 包 

installed.packages 国 数 将 返回 一 个 数据 框 ， 它 包含 了 R 所 知道 的 你 电脑 上 所 有 包 的 信 
息 。 如 果 你 使 用 R 已 经 有 一 段 时 间 了 ， 包 的 数目 很 可 能 有 几 百 个 ， 所 以 最 好 还 是 远离 控制 
台 来 查看 结果 : 

















View(installed.packages()) 
installed.packages 将 为 你 提供 电脑 硬盘 中 每 个 版 本 的 安装 包 的 信息 、 它 所 依赖 的 其 他 包 
以 及 其 他 信息 。 在 LibPath 一 列 中 提供 了 包 的 文件 位 置信 息 ， 这 会 告诉 你 它们 的 库 在 哪里 。 
这 时 你 可 能 想 知道 R 如 何 决定 哪些 文件 夹 被 认 作 是 库 。 




















Va 


z 以 下 的 解释 有 些 过 于 专业 ， 你 不 必 记 住 R 是 如 何 找 到 包 这 样 的 细节 。 这 些 信 
ae 
ww 

4 




















。 息 在 你 选择 升级 R， 或 当 你 加 载 包 出 现 问题 时 能 帮 你 节省 一 些 时 间 ， 但 在 
~ 的 日 常 工作 中 不 是 必需 的 。 

















R 安装 时 就 自 带 的 包 (base, stats 以 及 其 他 大 概 30 +) 都 存储 在 你 安装 R 的 library 子 目 
录 中 。 你 可 通过 以 下 方法 取得 这 个 位 置 : 











R.home("library") # 或 者 

## [1] "C:/PROGRA~1/R/R-devel/library" 

.Library 

## [1] "C:/PROGRA~1/R/R-devel/library" 
在 安装 包 时 ， 你 还 得 到 一 个 只 能 由 你 访问 的 用 户 库 (如 果 不 希 望 你 六 岁 大 的 小 朋友 更 新 
家 中 电脑 安装 的 包 并 破坏 了 代码 的 兼容 性 ， 这 是 非常 有 用 的 )。 这 个 位 置 取决 于 操作 系 
统 。 在 Windows 下 ， 对 于 及 的 x.y.z 版 本 ， 它 在 Home 目录 的 R/win-library/x.y 子 目录 中 ， 
Home 目录 可 以 通过 以 下 方式 找到 : 








path.expand("~") #or 
## [1] "C:\\Users\\richie\\Documents" 
Sys.getenv( "HOME" ) 


## [1] "C:\\Users\\richie\\Documents" 


在 Linux 下 ， 文 件 夹 同样 位 于 Home 目录 之 下 的 R/R.version$platform-library/x.y F XEK 
中 。R.version$platform 通常 会 返回 一 个 类 似 于 “i686-pc-linux-gnu” 的 字符 串 ， 你 可 以 使 
用 与 Windows 相同 的 方式 找到 它 的 Home 录 。 在 Mac OS X 中 ， 你 可 以 在 Library/R/x.y/ 
library 库 中 找到 它 。 
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与 库 位 置 的 默认 设置 相关 的 一 个 问题 是 ， 当 你 升级 R 时 需要 重新 安装 所 有 的 包 。 这 是 最 安 
全 的 行为 ， 因 为 不 同 版 本 的 RR 常常 需要 使 用 不 同 版 本 的 包 。 但 在 实际 中 ， 在 开发 机 器 上 
避免 重新 安装 包 往 往 要 比 版 本 问题 更 为 重要 *。 为 了 方便 ， 更 好 的 方法 是 创建 你 自己 的 库 ， 
使 之 适用 于 R 的 所 有 版 本 。 为 此 ， 最 简单 的 方法 是 定义 一 个 环境 变量 包 R_LIBS， 它 将 包含 
你 想 要 的 库 位 置 的 路 径 *。 虽 然 你 可 以 通过 在 R 中 编程 来 定义 环境 变量 ， 但 它们 只 适用 于 
R， 且 仅 用 于 会 话 的 其 余部 分 一 而 不 是 将 它们 定义 在 你 的 操作 系统 中 。 


你 可 以 用 .libpaths 函数 查看 R 所 知道 的 所 有 字符 向 量 : 














. LibPaths() 


## [1] "D:/R/library" 
## [2] "C:/Program Files/R/R-devel/library" 


此 向 量 的 第 一 个 值 最 为 重要 ， 因 为 这 是 包 将 被 默认 安装 的 位 置 。 


10.3 Zea 


R 出 厂 时 被 设置 为 访问 CRAN 的 包 库 (提示 选 最 近 的 镜像 )， 如 运行 Windows 则 会 访问 
CRANextra, CRANextra 包含 一 些 在 Windows 下 构建 时 需 特 别 注意 的 包 ， 它 们 不 能 在 通常 
的 CRAN 服务 器 上 托管 。 要 访问 其 他 存储 库 ， 输 入 setRepositories()， 选 择 您 想 要 的 库 。 
图 10-2 显示 了 它 的 可 选项 。 














六 
Repositories 





CRAN 

CRAN (extras) 
BioC software 
BioC annotation 
BioC experiment 
BioC extra 
Omegahat 
R-Forge 
rforge.net 





























10-2: 可 用 的 包 库 列表 


Bioconductor 包含 了 与 基因 组 学 和 分 子 生物 学 的 包 ， 而 R-Forge 和 RForge.net 大 多 包含 了 
开发 中 的 版 本 ， 它 们 最 终 出 现 会 在 CRAN。 使 用 available.packages 可 以 查看 在 库 中 的 包 
的 所 有 信息 请 注意 ， 因 为 那里 的 包 有 成 千 上 万 个 ， 所 以 这 需要 好 几 秒 钟 运行 ) : 








注 4: 如 果 你 正在 把 R 程序 部 署 为 应 用 程序 的 一 部 分 ， 那 么 情况 就 不 同 了 。 在 这 种 情况 下 兼容 性 会 胜出 。 
注 5: 可 以 用 分 号 分 隔 出 多 个 位 置 ， 但 这 可 能 小 题 大 做 了 。 
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View(available. packages()) 


除了 这 些 库 ， 还 能 从 网 上 很 多 其 他 的 储存 库 中 找到 R 的 包 文 件 ， 如 GitHub, bitbucket 和 
Google Code。 正 如 下 文 所 讨论 的 那样 ， 从 GitHub 上 取 包 特别 容易 。 








许多 IDE 也 提供 了 点 选 式 的 方法 来 安装 包 。 在 R 的 GUI 中， 在 Package 菜单 中 提供 了 
“Install Package(s) ...” 的 选项 从 资源 库 中 安装 包 ， 以 及 使 用 “Install package(s) from local 
zip files...” 来 从 你 已 下 载 的 包 中 安装 。 图 10-3 显示 R 的 GUI KH, 


Rrcucıso 


File Edit View Misc Windows Help 







































BAF Load package... 

a setCRAN miror... 
aa Select repositories... 

| > | Install package(s)... 


Update packages... 












Install package(s) from local zip files... 








10-3: 使 用 R 的 GUI 来 安装 包 


你 也 可 以 使 用 install.packages 国 数 来 安装 包 。 不 使 用 任何 参数 将 阐 出 同样 的 GUI 界面， 
就 像 你 点 击 了 “Install package(s) ...” 菜 单 选项 一 样 。 通 党 你 会 想 指定 要 安装 的 包 的 名 字 以 
及 要 访问 的 存储 库 的 URL 地 址 。 在 CRAN 主 站 http://cran.r-project.org/mirrors.html 上 可 以 
查 到 所 有 CRAN 镜像 的 RUL 列表 。 


此 命令 将 (尝试 ) 下 载 时 间 序 列 分 析 软 件 包 xts、zoo 和 它们 所 有 依赖 的 包 ， 然 后 把 它们 安 
装 到 默认 的 库 位 置 ( .libpaths 返回 的 第 一 个 值 ) : 














install.packages( 
c("xts", "zoo"), 
repos = "http://www.stats.bris.ac.uk/R/" 


) 
如 果 想 安装 到 不 同 的 位 置 ， 把 参数 lib 传递 给 install. packages: 


install.packages( 
c("xts", "zo0"), 
lib = "some/other/folder/to/install/to", 
repos = "http://www.stats.bris.ac.uk/R/" 


) 
很 明显 ， 你 需要 连 上 互联 网 才能 使 R 下 载 包 ， 而 且 你 需要 有 把 文件 写 和 人 库 目 录 的 权限 。 在 
企业 的 内 部 网 中 ，R 的 互联 网 访问 可 能 会 受 限 。 在 Windows 下 ， 你 可 以 让 R 使 用 internet2. 
dU 来 访 癌 因特网， 就 像 使 用 正 浏览 器 一 样 来 绕 过 访问 限制 。 要 做 到 这 一 点 ， 请 输入 : 





setInternet2() 





138 | #102 

















如 果 以 上 的 方法 都 不 可 行 ， 访 问 http:// web/packages/available_packages_by_name.html 并 手 
动 下 载 你 所 需 的 包 (以 及 所 有 依赖 包 )， 然 后 安装 这 些 tar.gz/tgz/zip XH: 


oa 





install. packages( 
"path/to/downloaded/file/xts_0.8-8.tar.gz", 
repos = NULL, # repo 为 NULL 意味 着 包 已 经 被 下 载 
type = "source" # 这 意味 着 现在 就 构建 包 

) 


install.packages( 
"path/to/downloaded/file/xts_0.8-8.zip", 
repos = NULL, # 还 需要 这 个 
type = "win.binary" # 只 是 Windows! 


) 
要 直接 从 GitHub 上 安装 包 ， 你 首先 要 安装 devtools 包 : 





install.packages("devtools") 


install_github 国 数 接受 GitHub 库 的 名 称 ， 此 库 将 包含 你 所 需要 的 包 (通常 与 包 本 身 的 名 
称 一 样 ) ， 以 及 维护 此 库 的 作者 名 。 例 如 ， 要 得 到 开发 版 本 的 reporting 包 knitr， 输 入 : 





Library(devtools) 
install_github("knitr", "yihui") 


10.4 维护 包 


在 包 被 安装 后 ， 你 通常 希望 能 及 时 更 新 它们 以 取得 最 新 的 版 本 。 这 可 以 通过 update. 
packages 完成 。 默 认 情 况 下 ， 此 函数 会 在 更 新 每 个 包 之 前 提示 你 。 在 一 段 时间 后 ， 这 会 变 
得 很 腔 肿 (因为 安装 几 百 个 包 的 情况 并 不 少见 )， 所 以 建议 设置 ask = FALSE: 











update.packages(ask = FALSE) 


有 时 候 你 可 能 想 删 除 一 个 包 。 只 需要 简单 地 把 包含 此 包 的 目录 从 你 的 文件 系统 中 删除 即 
可 ， 或 通过 编程 来 做 到 这 一 点 : 














remove .packages("zoo") 


10.5 小结 


。 有 成 千 上 万 的 R 包 存 在 于 在 线 资源 库 中 。 

。 可 以 使 用 install.packages 来 安装 这 些 软 件 包 ; 使 用 Library 或 require 来 加 载 它 们 。 

© 当 加 载 包 时 ， 它 们 会 被 添加 到 search 路 径 ， 由 此 R 可 以 找到 它们 的 变量 。 

e installed.packages 可 以 用 于 查看 已 安装 的 软件 包 ; update.packages 用 于 更 新 它们 ; 
remove.packages 用 于 把 它们 从 系统 中 删除 。 
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10.6 知识 测试 : 问题 
问题 10-1 
请 指出 一 些 R 包 的 资源 库 ? 





。 问题 10-2 
library 和 require 国 数 之 间 的 区 别 是 什么 ? 





。 问题 10-3 
什么 是 包 库 (package library) ? 
FT 


。 问题 10-4 


如 何 才能 在 你 的 电脑 上 找到 包 库 的 位 置 ? 





。 问题 10-5 
如 何 才能 使 到 R 像 了 正 浏 览 器 一 样 上 网 ? 


10.7 ”知识 测试 : 练习 
。 练习 10-1 
使 用 R 的 GUI 来 安装 Hmisc 包 。[10] 





。 练习 10-2 
使 用 install. packages 国 数 安装 Lubridate 包 。[10] 
。 练习 10-3 
请 统计 出 安装 在 你 的 电脑 上 的 每 个 库 下 面 的 软件 包 的 数量 。[5] 
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第 11 章 


日 期 和 时 间 














日 期 和 时 间 在 数据 分 析 中 经 常 出 现 一 一 尤其 是 对 于 时 间 序 列 分 析 来 说 。 有 一 个 坏 消息 : 
为 每 月 的 天 数 、 冰 年 和 头 秒 的 存在 ， 以 及 各 个 时 区 的 天 数 都 不 相同 ， 所 以 编写 程序 来 处 
理 它们 相当 麻烦 。 而 好 消息 是 : R 中 有 大 量 的 函数 可 以 用 来 处 理 时 间 和 日 期 。 尽 管 这 些 概 
念 对 于 R 编程 来 说 是 非常 基础 的 ， 本 书 现在 才 讨 论 它 们 是 因为 其 中 一 些 最 好 的 处 理 方法 出 
现在 插件 包 中 。 开 始 阅 读本 章 时 ， 你 可 能 会 对 大 量 出 现 的 代码 感到 不 太 自 在 。 现 在 ， 我 们 
将 从 Lubridate 包 中 开始 探求 ， 它 能 使 你 的 日 期 一 时 间 代 码 更 具 可 读 性 。 


11.1 本 章 目标 


读 完 本 章 后 ， 你 会 了 解 以 下 内 容 : 






























































。 理解 内 置 的 日 期 类 PoSIXct、POSIXLt 和 date; 
。 如 何 将 字符 串 转换 成 日 期 ; 

。 如 何 使 用 各 种 不 同 的 格式 显示 日 期 ， 

。 如 何 指定 和 操作 时 区 ， 

。 如 何 使 用 Lubridate 包 。 


11.2 “日 期 和 时 间 类 


R 中 自 带 有 三 个 日 期 和 时 间 类 : POSIXct, POSIXLt 和 Date. 





pa 








注 1， 因 为 地 球 的 旋转 速度 正在 放 缓 ， 所 以 一 天 所 需要 的 时 间 略 长 于 86 400 秒 。 这 一 点 在 你 等 待 发 工资 时 
特别 明显 。 从 1972 开始 ,我 们 通过 添加 疼 秒 来 纠正 这 一 点 。 输 入 .teap.seconds 看 它们 什么 时 候 发 生 。 
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11.2.1 POSIX 日 期 和 时 间 
POSIX 日 期 和 时 间 是 R 的 经 典 程序 。 它 的 实现 精彩 绝伦 ， 考 虑 了 各 种 星 涩 难 懂 的 技术 问 
题 。 但 它 Unix 系统 的 命名 非常 可 怕 ， 让 一 切 看 似 比 本 身 复杂 得 多 。 








R 中 的 两 个 标准 的 日 期 一 时 间 类 是 posIXct 和 POSIXLt。( 我 说 过 它们 的 名 字 很 吓人 ! ) 
POSIX 是 一 套 标准 ， 它 定义 了 那些 需要 遵守 的 Unix 的 规定 ， 例 如 日 期 和 时 间 该 如 何 设 定 。 
ct 是 “日 历时 间 ”(calendar time) 的 简称 ，POSIXct 类 记录 了 以 世界 标准 时 (UTC) 时 区 
为 准 的 从 1970 年 开始 计时 的 秒 数 计数 *。PosSIX1tt 将 日 期 存储 为 一 个 列表 ， 其 中 包括 秒 、 
分 钟 、 小 时 和 月 份 等 。POSIXct 最 适用 于 存储 和 计算 时 间 ， 而 POSIX1tt 最 适用 于 提取 日 期 中 
的 某 个 特定 部 分 。 


国 数 Sys.time 将 以 posixct 的 形式 返回 当前 的 日 期 和 时 间 : 











(now_ct <- Sys.time()) 
## [1] "2013-07-17 22:47:01 BST" 

now_ct 类 有 两 个 元 素 : 一 个 是 POSIXct 变量 ， 还 有 POSIXct 继承 自 类 POSIXt: 
class(now_ct) 


## [1] "POSIXct" "POSIXt" 





当日 期 被 打印 出 来 时 ， 你 只 看 到 它 格式 化 后 的 版 本 ， 因 而 不 确定 日 期 是 如 何 被 存储 的 。 通 
过 使 用 unclass， 我 们 发 现 它 只 是 一 个 数字 : 





unclass(now_ct) 


## [1] 1.374e+09 


打印 时 ，PosIX1tt 日 期 看 上 去 几乎 都 一 样 。 然 而 ， 它 们 的 底层 存储 机 制 是 非常 不 同 的 ; 





(now_lt <- as.POSIXLt(now_ct)) 
## [1] "2013-07-17 22:47:01 BST" 
class(now_lt) 

## [1] "POSIXLt" "POSIXt" 
unclass(now_lt) 


## Ssec 








TE 2: 不 要 把 UTC 的 缩写 与 其 他 通用 时 间 标 准 相 混合 (如 UT0、UTI1 等 )。 本 质 上 ， 它 和 (民用 的 ) 格林 
尼 治 标准 时 间 (GMT) 一 样 ， 不 同 之 处 在 于 格林 威 治标 准时 间 并 非 科 学 上 的 标准 ， 而 且 英 国政 府 也 
不 能 改变 UTC。 
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## [1] 1.19 


## Smin 
## [1] 47 


## Shour 
## [1] 22 


## Smday 
## [1] 17 


## Smon 
## [1] 6 


## Syear 
## [1] 113 


## Swday 
## [1] 3 


## Syday 
## [1] 197 


## Sisdst 
## [1] 1 


## attr(,"tzone") 
HH [1] nn "GMT" "BST" 


使 用 列表 索引 来 单独 访问 POSIXLt 日 期 的 每 个 部 分 : 
now_lt$sec 
## [1] 1.19 
now_lt[["min"]] 


## [1] 47 


11.2.2 Datež 

在 R 的 基本 包 中 ， 第 三 种 日 期 类 命名 得 稍微 好 一 点 ， 它 就 是 Date 类 。 它 存储 了 从 1970 年 
开始 计算 的 天 数 ?。pDate 类 最 适用 于 当 你 不 在 平一 天 中 的 某 个 时 刻 时 。 小 数 天 也 是 可 能 的 
(例如 可 通过 计算 Date 的 平均 值 )， 但 posix 类 更 适合 于 这 种 情况 : 






































(now_date <- as.Date(now_ct)) 


## [1] "2013-07-17" 

















注 3: 历史 数据 研究 人 员 可 能 要 注意 ， 这 里 的 日 期 总 是 以 公历 计算 ， 所 以 对 于 1752 年 之 前 的 任何 事情 ， 都 
需要 仔细 检查 。 
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class(now_date) 
## [1] "Date" 
unclass(now_date) 


## [1] 15903 


11.2.3 ”其 他 日 期 类 


R 中 还 有 其 他 许多 处 理 处 理 日 期 和 时 间 的 类 。 如 果 需 要 选择 日 期 一 时 间 类 ， 通常 你 应 该 坚 
持 使 用 三 个 基本 类 (POSTXct、POSIXLt 和 Date) 中 的 一 个 。 但 如 果 你 正在 使 用 其 他 人 的 代 
码 ， 而 这 些 代码 使 用 了 其 他 的 日 期 -时 间 类 ， 你 就 需要 对 其 他 类 有 所 了 解 。 


其 他 来 自 于 各 种 插件 包 的 日 期 时 间 类 包括 date、dates、chron、yearmon、yearqtr、timeDate、 
ti 和 jul. 


11.3 日 期 与 字符 串 的 相互 转换 


许多 数据 的 文本 文件 格式 并 没有 明确 支持 某 种 特定 的 日 期 类 型 。 例 如 ， 在 一 个 CSV 文件 
中 ， 每 个 值 只 是 一 个 字符 串 。 为 了 使 用 R 中 日 期 函数 ， 你 必须 把 日 期 字符 串 转 换 成 某 一 个 
日 期 类 型 的 变量 。 类 似 地 ， 往 CSV 文件 中 写 数据 时 ， 你 也 必须 首先 把 日 期 转换 成 字符 串 。 


11.3.1 解析 日 期 

当 我 们 从 文本 或 电子 表格 文件 读 取 日 期 时 ， 它 们 通常 被 存储 为 一 个 字符 向 量 或 因子 。 为 
了 把 它们 转换 为 日 期 ,我们 需要 解析 这 些 字符 串 。 这 可 以 使 用 另 一 种 命名 得 同样 糟糕 的 
国 数 : strptime (string parse time 的 简称 )， 它 将 返回 POSIX1t 日 期 (还 有 as.P0SIXct 和 
as .POSIX1t 函数 。 调 用 它们 时 ， 如 果 输 入 的 是 字符 ， 那 么 它们 只 是 strptime 的 封装 函数 罢 
了 )。 解 析 日 期 时 ， 你 必须 把 字符 串 与 日 期 相对 应 的 那些 位 告诉 strptime。 日 期 的 格式 使 
用 带 有 百分比 符号 和 字母 的 字符 串 来 指定 。 例 如 ， 当 月 的 第 几 天 被 指定 为 %d。 把 它们 与 
其 他 固定 字符 相 结合 可 以 形成 一 个 完整 的 规范 ， 例 如 : 冒号 、 破 折 号 和 日 期 中 的 斜 杠 号 。 
时 区 的 规范 取决 于 你 的 操作 系统 。 它 可 能 很 复杂 ， 细 节 将 在 稍 后 讨论 ， 但 通常 你 希望 把 
“UTC ”当成 格林 尼 治 时 间或 把 “” 当 作 当 前 时 区 (以 你 的 操作 系统 的 区 域 设置 为 主 ) 。 


在 下 例 中 ，%H 是 小 时 ( 24 小 时 制 )，%M 是 分 钟 ，%s 是 秒 ，‰ 是 月 数 ，%d (如 前 所 述 ) 是 
当月 的 第 几 天 ， 还 有 My 为 四 位 数 的 年 份 。 完 整 的 组 成 列表 在 不 同 的 系统 上 是 不 同 的 。 详 
情 请 参见 ?strptime 帮助 页 面 : 
















































































moon_landings_str <- c( 
"20:17:40 20/07/1969", 
"06:54:35 19/11/1969", 
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"09:18:11 05/02/1971", 
"22:16:29 30/07/1971", 
"02:23:35 21/04/1972", 
"19:54:57 11/12/1972" 

) 

(moon_landings_lt <- strptime( 
moon_Landings_str, 
"%H:%M:%S %d /%m/%Y" , 
tz "UTE! 

)) 


## [1] "1969-07-20 20:17:40 UTC” "1969-11-19 06:54:35 UTC" 

## [3] "1971-02-05 09:18:11 UTC” "1971-07-30 22:16:29 UTC" 

## [5] "1972-04-21 02:23:35 UTC" "1972-12-11 19:54:57 UTC" 
如 果 字 符 串 不 匹配 格式 字符 串 中 的 格式 ， 那 么 它 就 取 NA 值 。 例 如 ， 如 果 给 出 的 是 破 折 号 
而 不 是 斜 线 ， 将 使 得 解析 失败 : 














strptime( 
moon_lLandings_str, 
"%H:%M:%S %d-%m-%Y", 
tz = "UTC" 

) 


## [1] NA NA NA NA NA NA 


11.3.2 ”格式 化 日 期 

与 解析 相反 的 问题 是 如 何 把 日 期 变量 转换 为 字符 串 ， 即 格式 化 。 在 这 种 情况 下 ， 我 们 将 使 
用 与 指定 格式 字符 串 相 同 的 系统 ， 不 过 现在 调用 strftime (字符 串 格 式 的 时 间 ) 来 反 转 解 
析 操 作 。 如 果 觉 得 strftime 不 好 记 ， 你 可 以 使 用 format 国 数 来 轻松 地 完成 日 期 的 格式 化 ， 
它 与 strftime 的 使 用 方式 几乎 完全 相同 。 


在 下 例 中 ，%I 表示 小 时 (12 小 时 制 )，%p 是 AM/PM 指示 ，%A 是 星期 几 的 全 名 ,而 %B 是 
月 的 全 名 。strftime 可 使 用 PoSIXct 和 POSIX1t 的 输入 参数 : 














strftime(now_ct, "It's %1:%M%p on %A %d %B, %Y.") 


## [1] "It's 10:47PM on Wednesday 17 July, 2013." 


11.4 时 区 


从 编程 的 角度 来 看 ， 时 区 往往 可 怕 而 复杂 。 很 多 国家 常 有 好 几 个 时 区 ， 而 且 当 一 些 〈 但 不 
是 全 部 ) 国家 切换 到 夏令 时 需要 改变 边界 。 许 多 时 区 都 有 缩写 名 称 ， 但 它们 又 不 是 唯一 
的 。 例 如 ,，“EST” 可 以 是 美国 、 加 拿 大 以 及 澳大利亚 的 “东部 标准 时 间 ”。 


在 解析 日 期 字符 串 时 (使 用 strptime)， 你 可 以 指定 一 个 时 区 ， 当 你 格式 化 它 时 (使 用 
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strftime) ， 可 以 再 次 改变 它 。 在 解析 过 程 中 ， 如 果 不 指定 时 
以 默认 时 区 。 这 个 值 是 sys.timezone 返回 的 ， 它 会 从 你 的 操作 系统 区 域 设置 猪 到 该 值 。 你 
可 以 使 用 Sys.getlocale("LC_TIME") 来 查看 操作 系统 的 日 期 时 间 设 定 。 














区 (默认 为 “”)，R 会 给 日 期 





要 避免 这 种 时 区 的 混乱 ， 最 简单 的 方法 是 随时 记录 ， 然 后 以 UTC 时 区 分 析 你 的 时 间 。 如 
果 你 能 做 到 这 一 点 ， 蔡 喜 ! 你 很 幸运 。 对 于 其 他 人 ， 例 如 那些 需要 处 理 他 人 数据 的 人 ， 最 








容易 理解 和 方便 的 指定 时 区 的 方法 是 使 用 Olson 形式 ， 即 “ 训 /市 ”或 类 似 的 方式 : 


strftime(now_ct, tz = "America/Los_Angeles") 
## [1] "2013-07-17 14:47:01" 
strftime(now_ct, tz = "Africa/Brazzaville") 
## [1] "2013-07-17 22:47:01" 
strftime(now_ct, tz = "Asia/Kolkata") 

## [1] "2013-07-18 03:17:01" 
strftime(now_ct, tz = "Australia/Adelaide") 


## [1] "2013-07-18 07:17:01" 








使 用 file.path(R.home("share"), "zoneinfo", "zone.tab") 能 查找 出 R 中 所 有 可 能 的 
Olson 时 区 列表 (这 是 名 为 zone.tab 的 文件 位 于 zoneinfo 文件 夹 中 ， 此 文件 夹 就 在 你 安装 
R 的 共享 目录 内 )。 本 章 后 文 将 介绍 Lubridate 包 ， 它 将 告诉 你 如 何 快速 访问 此 文件 。 


另 一 个 可 靠 的 方法 是 给 UTC 手动 添加 一 个 偏 移 量 ， 格 式 为 "TC"+n" 或 "UTC"-n"。 负 的 时 
间 在 UTC 的 东边 ， 正 的 在 西边 。 手 动 操作 至 少 让 你 很 清楚 时 间 是 如 何 被 改变 的 ， 但 同时 


你 必须 手动 修正 夏令 时 ， 





但 仍 会 正确 执行 此 偏 移 操 作 : 


strftime(now_ct, tz = "UTC-5") 

## Warning: unknown timezone 'UTC-5' 

## [1] "2013-07-18 02:47:01" 

strftime(now_ct, tz = "GMT-5") # 同样 的 结果 

## Warning: unknown timezone 'GMT-5' 

## [1] "2013-07-18 02:47:01" 

strftime(now_ct, tz = "-5") # 如 果 操 作 系统 支持 ， 
## Warning: unknown timezone '-5' 


## [1] "2013-07-18 02:47:01" 


因此 这 种 方法 须 谨 慎 使 用 。 最 近 版 本 的 R 会 警告 时 区 是 未 知 的 ， 


结果 也 是 一 样 
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strftime(now_ct, tz = "UTC+2:30") 


## Warning: unknown timezone 'UTC+2:30' 


## [1] "2013-07-17 19:17:01" 





肯定 时 区 的 第 三 个 方法 是 使 用 缩写 ， 可 以 是 三 个 字母 或 三 个 字母 加 





的 方式 。 这 种 方法 不 到 最 后 不 要 使 用 ， 原 因 有 三 个 : 首先 ， 
其 次 ， 正 如 前 面 提 到 的 ， 它 们 不 是 唯一 的 ， 所 以 给 出 的 时 区 




















同 的 操作 系统 支持 不 同 的 缩写 集 。 尤 其 对 于 Windows REAS Wa 


比较 别扭 : 
strftime(now_ct, tz = "EST") 
## [1] "2013-07-17 16:47:01" 
strftime(now_ct, tz = "PST8PDT") 


## [1] "2013-07-17 14:47:01" 


# 加 拿 大 东部 时 间 


# 太平 洋 标准 夏令 时 时 间 





个 数字 再 加 三 个 字母 
eaa aea 
能 不 是 你 所 要 的 ， 最 后 ， 不 


它 对 时 区 缩写 的 处 理 


后 的 关于 时 区 的 警告 是 : strftime 将 忽略 POSIXLt 类 型 的 时 区 变更 。 最 好 在 打印 之 前 就 


显 式 把 日 期 转换 成 PosIXct 类 型 : 
strftime(now_ct, tz = "Asia/Tokyo") 
## [1] "2013-07-18 06:47:01" 
strftime(now_lt, tz = "Asia/Tokyo") 


## [1] "2013-07-17 22:47:01" 


# 时 


strftime(as.POSIXct(now_lt), tz = "Asia/Tokyo") 


## [1] "2013-07-18 06:47:01" 


还 有 一 个 最 后 警告 〈 真 的 是 最 后 一 个 啦 ! 





它 会 把 时 区 更 改 为 当 v aa 如 果 把 c 函数 作用 于 PoSIXct 参数 上 ， 将 彻底 去 除 其 
时 区 属性 。( 大 多 数 其 他 的 函数 都 将 假定 日 期 是 本 地 时 区 的 ， 但 要 小 心 ! 








区 没有 变化 ! 





) : 如 果 你 调用 带 有 Pp0sIX1t 参数 的 连接 函数 c, 


11.5 “日 期 和 时 间 的 算术 运算 


R 支持 三 个 日 期 与 时 间 基 类 的 算术 运算 。 将 数字 与 P05IX 日 期 相 加 ， 会 以 秒 为 单位 增加 时 


间 。 将 数字 与 Date 相 加 会 以 天 数 为 单位 : 


now_ct + 86400 # 明天 。 我 在 想 世 界 会 变 成 怎么 样 ! 


## [1] "2013-07-18 22:47:01 BST" 














) 
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now_lt + 86400 # 与 POSIX1t 的 行为 一 样 
## [1] "2013-07-18 22:47:01 BST" 


now_date + 1 # 日 期 的 算术 运算 以 天 为 单位 
## [1] "2013-07-18" 
把 两 个 日 期 加 起 来 其 实 没 有 多 大 意义 ， 而 且 会 抛 出 一 个 错误 。 但 减法 操作 是 支持 的 ， 这 会 


计算 两 个 日 期 之 间 的 差 值 。 这 种 行为 对 于 所 有 三 种 日 期 的 类 型 都 一 样 。 请 注意 ， 在 下 例 
中 ， 如 果 你 不 指定 格式 的 话 ，as .Date 会 自动 解析 %Y-%m-%d 或 %Y/%m/%d 形式 的 日 期 : 
the_start_of_time <-  # 按 POSIX 
as.Date("1970-01-01") 
the_end_of_time <- # 按 玛雅 人 的 阴谋 论 
as .Date("2012-12-21") 
(all_time <- the_end_of_time - the_start_of_time) 


## Time difference of 15695 days 
使 用 我 们 已 熟 答 的 (希望 如 此 ) class 和 unclass 的 组 合 来 查看 时 间 存 储 之 间 的 差别 : 
class(all_time) 
## [1] "difftime" 
unclass(all_time) 
## [1] 15695 


## attr(,"units") 
## [1] "days" 


使 用 difftime ABORT H MFT al AAA, ELBE RIEL ir, 
由 于 时 间 之 间 的 差别 ， 天 数 被 自动 选择 为 “最 敏感 的 ”单位 。 差 别 短 于 一 天 的 时 间 以 小 
时 、 分 钟 或 秒 来 表示 。 你 可 以 使 用 difftime 函数 来 更 好 地 控制 它 的 单位 : 

difftime(the_end_of_time, the_start_of_time, units = "secs") 

## Time difference of 1.356e+09 secs 

difftime(the_end_of_time, the_start_of_time, units = "weeks") 


## Time difference of 2242 weeks 


生成 序列 的 seq 函数 也 适用 于 日 期 。 这 在 创建 人 工 生 成 的 日 期 (artificial date) 的 测试 数 
据 集 时 尤其 有 用 。 在 by 参数 中 ， 单 位 的 选择 对 于 posix 和 date 类 型 是 有 所 不 同 的 。 参 
Žž; 2seq.POSIXt 和 ?seq.Date 帮助 页 面 以 了 解 每 种 状况 下 应 做 何 选择 : 


seq(the_start_of_time, the_end_of_time, by = "1 year") 


## [1] "1970-01-01" "1971-01-01" "1972-01-01" "1973-01-01" "1974-01-01" 
## [6] "1975-01-01" "1976-01-01" "1977-01-01" "1978-01-01" "1979-01-01" 
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## [11] "1980-01-01" "1981-01-01" "1982-01-01" "1983-01-01" "1984-01-01" 
## [16] "1985-01-01" "1986-01-01" "1987-01-01" "1988-01-01" "1989-01-01" 
## [21] "1990-01-01" "1991-01-01" "1992-01-01" "1993-01-01" "1994-01-01" 
## [26] "1995-01-01" "1996-01-01" "1997-01-01" "1998-01-01" "1999-01-01" 
## [31] "2000-01-01" "2001-01-01" "2002-01-01" "2003-01-01" "2004-01-01" 
## [36] "2005-01-01" "2006-01-01" "2007-01-01" "2008-01-01" "2009-01-01" 


## [41] "2010-01-01" 


seq(the_start_of_time, the_end_of_time, by = 


"2011-01-01" "2012-01-01" 


500 days") # BR 


## [1] "1970-01-01" "1971-05-16" "1972-09-27" "1974-02-09" "1975-06-24" 
## [6] "1976-11-05" "1978-03-20" "1979-08-02" "1980-12-14" "1982-04-28" 
## [11] "1983-09-10" "1985-01-22" "1986-06-06" "1987-10-19" "1989-03-02" 
## [16] "1990-07-15" "1991-11-27" "1993-04-10" "1994-08-23" "1996-01-05" 
## [21] "1997-05-19" "1998-10-01" "2000-02-13" "2001-06-27" "2002-11-09" 
## [26] "2004-03-23" "2005-08-05" "2006-12-18" "2008-05-01" "2009-09-13" 


## [31] "2011-01-26" 


"2012-06-09" 


许多 其 他 基本 的 函数 也 允许 操作 日 期 。 对 它们 可 以 使 用 repeat、round 以 及 cut 国 数 。 也 
可 以 使 用 mean 和 summary 来 计算 均值 和 汇总 统计 值 。 使 用 methods(class = "POSIXt") 以 
及 methods(class = "Date") 能 查看 很 多 相关 的 函数 ， 尽 管 其 中 一 些 函 数 在 处 理 日 期 时 ， 没 
有 特定 的 日 期 方法 。 


11.6 Lubridate 


如 果 你 对 日 期 感到 有 些 灰 心 ， 正 想 跳 过 本 章 的 其 余部 分 ， 不 要 害怕 ， 因 为 救星 来 了 ! 
tubridate， 正 如 其 名 ， 它 为 日 期 处 理 的 过 程 增加 了 急需 的 润 光 剂 。 它 并 没有 为 R 添 加 许 
多 新 功能 ， 但 它 使 代码 更 具 可 读 性 ， 并 免 去 你 很 多 不 必要 的 烦恼 。 


为 了 取代 strptime, lubridate 有 多 种 使 用 了 预 设 格 式 的 解析 函数 。ymd 接受 年 、 月 、 日 的 
日 期 形式 。 规 范 上 有 一 定 的 灵活 性 : 一 些 基 本 的 分 隔 符 都 能 使 用 ， 如 连 字 符 、 正 反 斜 杠 、 
冒号 和 空格 “， 月份 可 用 数字 、 完 整 的 英文 名 或 缩写 名 称 来 标注 ， 也 可 以 使 用 星期 几 ， 但 
不 是 强制 的 。 它 真正 的 优点 在 于 ， 相 同 向 量 中 的 不 同 元 素 可 用 不 同 的 格式 (只 要 年 月 日 的 
先后 顺序 不 变 ) : 









































library(lubridate) 


## Attaching package: 'lubridate' 


## The following object is masked from 'package:chron': 
Be 
## days, hours, minutes, seconds, years 


john_harrison_birth_date <- c( # 它 发 明了 洪 艇 中 的 航海 天 文 钟 
"1693-03 24", 
"1693/03\\24", 
"Tuesday+1693.03*24" 





Th4: 事实 上 ， 大 部 分 的 标点 符号 都 是 允许 的 。 








日 期 和 时 间 | 149 


) 
ymd(john_harrison_birth_date) # 所 有 都 一 样 


## [1] "1693-03-24 UTC" "1693-03-24 UTC" "1693-03-24 UTC" 


非常 重要 的 是 ， 请 记 住 ymd 要 以 正确 的 顺序 获取 日 期 。 如 果 你 的 日 期 数据 的 形式 有 所 不 
同 ， 可 以 使 用 Lubridate 提供 的 其 他 函数 (ydn、mdy、myd、dmy 和 dym)。 这 些 函 数 都 有 相 
关 的 函数 用 于 指定 特定 的 时 间 格 式 ， 如 ymd_h、ymd_hm 和 ymd_hms， 以 及 另 五 个 以 其 他 顺 
序 出 现 的 日 期 函数 。 如 果 你 的 日 期 不 在 以 上 任何 一 种 格式 中 ， 则 使 用 更 低级 的 函数 parse_ 
date_time 来 实现 。 




















Lubridate 中 的 所 有 人 解析 函数 都 会 返回 P0SIXct 日 期 默认 都 使 用 UTC 时 区 。 敖 告 ， 这 些 
行为 与 R 中 的 基本 函数 strptime 不 同 ! (尽管 通常 使 用 起 来 会 更 方便 。) 在 Lubridate 的 
术语 中 ， 这 些 个 别 日 期 是 “瞬间 ” (instant) 。 


lubridate 提供 了 stamp 函数 来 格式 化 日 期 ,使 你 以 更 可 读 的 方式 指定 格式 。 当 指定 一 个 日 
期 ， 它 会 返回 一 个 用 于 日 期 格式 化 的 函数 : 








x 


date_format_function <- 
stamp("A moon landing occurred on Monday 01 January 1900 at 18:00:00.") 


## Multiple formats matched: "A moon landing occurred on %A %m January %d%y 
## at %H:%M:%0S"(1), "A moon Landing occurred on %A %m January %Y at 
## %d:%H:%M."(1), "A moon landing occurred on %A %d %B %Y at %H:%M:%S."(1) 


## Using: "A moon landing occurred on %A %d %B %Y at %H:%M:%S." 

date_format_function(moon_Landings_lt) 

## [1] "A moon landing occurred on Sunday 20 July 1969 at 20:17:40." 
lubridate 有 三 种 不 同类 型 的 变量 可 用 于 时 间 范 围 的 处 理 。 “持续 时 间 ”(Duration) 指定 
的 时 间 跨 度 为 秒 的 倍数 ， 所 以 一 天 的 总 时 间 是 86 400 秒 (60 x 60 x 24)， 一 年 的 总 时 间 是 
3 156 000 秒 (86 400x365)。 对 于 间隔 均匀 的 时 间 来 说 ， 指 定 日 期 范围 会 很 容易 ， 但 头 年 
和 夏令 时 把 问题 复杂 化 了 。 在 下 例 中 ， 请 注意 每 个 周年 会 使 日 期 向 后 倒退 一 天 。today 将 
给 出 今天 的 日 期 : 




















(duration_one_to_ten_years <- dyears(1:10)) 


## [1] "31536000s (~365 days)" "63072000s (~730 days)" 

## [3] "94608000s (~1095 days)" "126144000s (~1460 days)" 
## [5] "157680000s (~1825 days)" "189216000s (~2190 days)" 
## [7] "220752000s (~2555 days)" "252288000s (~2920 days)" 
## [9] "283824000s (~3285 days)" "315360000s (~3650 days)" 


today() + duration_one_to_ten_years 


## [1] "2014-07-17" "2015-07-17" "2016-07-16" "2017-07-16" "2018-07-16" 
## [6] "2019-07-16" "2020-07-15" "2021-07-15" "2022-07-15" "2023-07-15" 





其 他 用 于 创建 持续 时 间 的 函数 为 dseconds, dminutes 等 ， 对 于 混合 组 分 的 规范 (mixed- 


component specification) 则 使 用 new_duration。 
“JW” (period) 根据 时 钟 上 的 时 间 来 指定 时 间 跨 度 。 这 意味 着 ， 在 把 它们 添加 到 一 个 瞬 


间 之 前 ， 它 们 确切 的 时 间 跨 度 是 看 不 出 来 的 。 例 如 ， 一 年 的 周期 可 以 是 365 或 366 天 ,这 
取决 于 它 是 否 是 半年 。 在 下 例 中 ， 请 注意 日 期 在 国 年 中 保持 不 变 : 











(period_one_to_ten_years <- years(1:10)) 


## [1] "1y Om Od OH OM OS" "2y Om Od OH OM OS" "3y Om Od OH OM OS" 
## [4] "4y Om Od OH OM OS" "Sy Om Od OH OM OS" "6y Om Od OH OM OS" 
## [7] "7y Om Od OH OM OS" "8y Om Od OH OM OS" "Sy Om Od OH OM OS" 
## [10] "10y Om Od OH OM oS" 


today() + period_one_to_ten_years 


## [1] "2014-07-17" "2015-07-17" "2016-07-17" "2017-07-17" "2018-07-17" 
## [6] "2019-07-17" "2020-07-17" "2021-07-17" "2022-07-17" "2023-07-17" 


除了 years， 还 可 以 使 用 seconds, minutes 以 及 new_period (对 混合 组 分 规范 ) 等 来 创建 
周期 。 


“间隔 ” (interval) 定义 为 某 段 具有 开始 和 结束 的 时 间 。 它 们 本 身 用 处 不 大 ， 最 常用 于 指定 
持续 时 间 和 周期 ， 当 你 已 知 开始 和 结束 日 期 〈 而 非 持续 的 时 间 ) 时 。 它 们 也 可 用 于 持续 时 
间 和 周期 之 间 的 转换 。 例 如 ， 如 果 要 将 一 年 的 持续 时 间 直 接 转换 为 周期 只 能 大 约 估 计 ， 因 
为 一 年 可 能 是 365 或 366 天 (可 能 再 加 上 一 些 头 秒 ， 如 果 是 夏令 时 变化 则 要 加 减 一 、 两 个 
小 时 ) : 





























a_year <- dyears(1) # 刚好 是 60*60*24*365 Fb 
as.period(a_year) # 只 是 一 个 估计 


## estimate only: convert durations to intervals for accuracy 


## [1] "ly Om Od QH OM 0S" 


当 起 始 (或 结束 ) 时 间 的 日 期 已 知 时 ， 我 们 可 以 使 用 interval 和 一 个 媒介 把 持续 时 间 转 换 
为 周期 ， 例如 : 





start_date <- ymd("2016-02-28") 
(interval_over_leap_year <- new_interval( 
start_date, 
start_date + a_year 


)) 
## [1] 2016-02-28 UTC--2017-02-27 UTC 
as.period(interval_over_leap_year ) 


## [1] "11m 30d OH OM OS" 
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间隔 也 有 一 些 便 于 使 用 的 操作 符 ， 即 用 于 定义 间隔 的 %--%， 以 及 用 于 检查 日 期 是 否 包 含 在 
间隔 之 内 的 %within%: 





ymd("2016-02-28") %--% ymd("2016-03-01") # 另 一 种 指定 间隔 的 方式 
## [1] 2016-02-28 UTC--2016-03-01 UTC 
ymd("2016-02-29") %within% interval_over_leap_year 


## [1] TRUE 


对 于 时 区 的 处 理 ，with_tz 允许 你 改变 日 期 的 时 区 而 无 须 把 它 打印 出 来 (这 与 strftime 不 


同 )。 








它 还 能 够 正确 地 处 理 PosIX1t 日 期 (这 也 与 strftime 不 同 ) : 





with_tz(now_lt, tz = "America/Los_Angeles") 
## [1] "2013-07-17 14:47:01 PDT" 
with_tz(now_lt, tz = "Africa/Brazzaville") 
## [1] "2013-07-17 22:47:01 WAT" 
with_tz(now_lt, tz = "Asia/Kolkata") 

## [1] "2013-07-18 03:17:01 IST" 
with_tz(now_lt, tz = "Australia/Adelaide") 


## [1] "2013-07-18 07:17:01 CST" 


force_tz 是 with_tz 的 一 个 变种 ， 用 于 更 新 不 正确 的 时 区 。 





x 





olson_time_zones 将 以 字母 或 经 度 顺 序 返 回 R 所 知道 的 所 有 Olson 风格 的 时 区 名 字 列 表 : 


还 一 





head(oLson_time_zones()) 


## [1] "Africa/Abidjan" "Africa/Accra" "Africa/Addis_Ababa" 
## [4] "Africa/Algiers" "Africa/Asmara" "Africa/Bamako" 


head(olson_time_zones("Longitude" ) ) 


## [1] "Pacific/Midway" "America/Adak" "Pacific/Chatham" 
## [4] "Pacific/Wallis" "Pacific/Tongatapu" "Pacific/Enderbury" 











些 其 他 的 实用 函数 可 用 于 日 期 的 算术 运算 ， 尤 其 是 floor_date 和 ceiling_date: 





floor_date(today(), "year") 
## [1] "2013-01-01" 
ceiling_date(today(), "year") 


## [1] "2014-01-01" 





11.7 h% 


有 三 个 可 用 于 存储 日 期 和 时 间 的 内 置 类 : POSIXct、POSIXLt 和 Date, 

使 用 strptime 国 数 解析 字符 ， 把 它 转换 为 日 期 。 

使 用 strftime 把 日 期 格式 化 为 字符 串 。 

使 用 Olson 名 称 或 UTC 的 偏 移 量 、 或 (有时) 用 三 个 字母 的 缩写 指定 时 区 。 
Lubridate 包 让 人 处理 时 间 变 得 稍 容易 些 。 



































11.8 知识 测试 : 问题 


问题 11-1 
你 会 使 用 三 个 内 建 类 的 哪 一 个 来 存储 数据 框 中 的 日 期 与 时 间 ? 





问题 11-2 
POSIXct 和 Date 中 的 零点 指 什么 时 候 ? 


问题 11-3 
你 会 用 什么 格式 化 字符 串 来 显示 以 下 日 期 : 完整 的 月 份 名 ， 后 面 跟着 四 位 数 的 年 份 ? 


问题 11-4 
如 何 把 一 个 PosIXct 日 期 往 将 来 移动 一 小 时 ? 





问题 11-5 
使 用 lubridate 包 ， 考 虑 以 下 两 个 开始 于 2016 年 1 月 1 日 的 时 间 间 隔 哪 一 个 后 结束 ， 
是 一 年 的 持续 时 间 ， 还 是 一 年 的 周期 ? 


11.9 知识 测试 : 练习 


练习 11-1 

解析 披 头 士 的 出 生日 期 ， 并 使 用 “AbbreviatedWeekday DAYOFMONTH Abbreviated- 
MonthNameTwoDigitYear” 的 形式 (例如 ，Wed 09 Oct 40) 把 它们 打印 出 来 。 他 们 的 出 
生日 期 列 于 下 表 。 





披 头 士 乐队 成 员 出 生日 期 
Ringo Starr 1940-07-07 
John Lennon 1940-10-09 
Paul McCartney 1942-06-18 
George Harrison 1943-02-25 


[10] 
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练习 11-2 
R 中 有 一 个 文 从 





帮助 页 面 中 的 示例 会 告诉 你 方法 。 查 找 你 所 在 时 区 的 名 称 。[10] 


练习 11-3 
编写 一 个 函数 ， 它 以 日 期 为 输入 参数 ， 并 能 返 开 











围 列 于 下 表 。[15] 








F 用 于 查找 Olson 时 区 的 名 称 ， 使 用 编程 方式 来 读 取 此 文件 。?Sys.timezone 




















对 应 于 当天 的 星 内 


Eo AERA H 




















星座 起 始 日 期 结束 日 期 
白羊座 3 月 21 日 4 月 19 日 
金牛 座 4 月 20 日 5 月 20 日 
双子 座 5 月 21 日 6 月 20 日 
EJE 6H 21H 7 月 22 日 
狮子 座 7 月 23 日 8 月 22 日 
处 女 座 8 月 23 日 9 月 22 日 
天 秤 座 9 月 23 日 10 月 22 日 
天 蝎 座 10 月 23 日 11 H21 日 
射手 座 11 月 22 日 12 月 21 日 
摩羯 座 12 月 22 日 1 月 19 日 
水 瓶 座 1 月 20 日 2 月 18 日 
双鱼 座 2 月 19 日 3 月 20 日 








第 二 部 分 





数据 分 析 工 作 流 


第 12 章 





获取 数据 


数据 的 来 源 可 以 有 很 多 。R 内 置 有 许多 数据 集 ， 而 在 其 他 的 附件 包 中 能 找到 更 多 的 数据 。 
R 能 从 各 式 各 样 的 来 源 中 读 取 数据 ， 且 支持 大 量 的 文件 格式 。 本 章 将 介绍 如 何 从 文本 文 
件 〈 包 括 以 逗号 或 制 表 符 分 隔 的 类 似 电 子 表格 的 格式 、XML 和 JSON 文件 )、 二 进 制 文件 
(Excel 电子 表格 和 从 其 他 分 析 软 件 获 取 的 数据 ) 以 及 从 网 站 和 数据 库 中 导入 数据 。 


12.1 本 章 目 标 
阅读 本 章 后 ， 你 会 了 解 以 下 内 容 ， 


。 如 何 访 问 R 包 中 所 提供 的 数据 集 ; 














。 如 何 从 文本 文件 导入 数据 ， 
。 如 何 从 三 进 制 文件 中 导入 数据 ， 





。 如 何 从 网 站 上 下 载 数据 ; 


。 如 何 从 数据 库 中 导入 数据 。 


12.2 内置 的 数据 集 


R 的 基本 分 发 包 中 有 一 个 叫 datasets， 里 面 全 是 示例 数据 集 。 如 果 其 中 有 适用 于 你 的 研究 


领域 的 包 ， 那 么 你 很 走运 ， 











因为 它们 非常 适合 测试 代码 及 探索 新 的 技术 。 很 多 其 他 包 也 含 


有 数据 集 。 使 用 data 函数 可 查看 所 有 你 已 成 功 加 载 了 的 包 的 数据 集 : 


data() 
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如 需 更 完整 的 列表 ， 包 括 已 安装 的 所 有 包 的 数据 ， 可 使 用 以 下 方法 ; 
data(package = .packages(TRUE) ) 


如 果 你 想 访 问 任意 数据 集 里 的 数据 ， 只 需 调 用 data 函数 ， 传 入 数据 集 的 名 称 及 其 所 在 的 包 
名 【如果 此 包 已 被 加 载 ， 可 省 略 这 个 package BH) : 





data("kidney", package = "survival") 


现在 ， 可 以 把 kidney 的 数据 框 当成 你 自己 的 变量 使 用 : 





head(kidney) 


## id time status age sex disease frail 


## 1 1 8 1 28 1 Other 2.3 
## 2 1 16 28 1 Other 2.3 
## 3 2 23 1 48 2 GN 1.9 
## 4 2 13 0 48 2 GN 1.9 
## 5 3 22 1 32 1 Other 1.2 
## 6 3 28 1 32 1 Other 1.2 


12.3” 读 取 文 本 文件 


有 众多 的 格式 和 文本 文件 标准 可 用 于 存储 数据 。 用 于 存储 数据 的 通用 格式 为 分 隔 符 值 ( 即 
CSV 或 制 表 符 分 隔 文件 )、 可 扩展 标记 语言 (XML)、JavaScript 对 象 表 示 法 (JSON) 和 
YAML (这 是 YAML Ain’t Markup Language 的 递归 表示 )。 文 本 数据 的 其 他 来 产 结构 会 比 
较 松 散 ， 例 如 书本 ， 其 中 并 没有 包含 任何 正式 的 文本 数据 ( 即 标准 化 和 可 被 机 器 解析 的 ) 
结构 。 


将 数据 存储 在 文本 文件 中 的 主要 优点 是 : 它们 可 被 几乎 所 有 的 其 他 数据 分 析 软 件 或 人 读 
取 。 这 使 得 你 的 数据 能 广泛 地 被 重用 。 














12.3.1 CSV 和 制 表 符 分 隔 (Tab-Delimited) 文件 

矩形 (类 似 电 子 表格 的 ) 数据 通常 存储 在 带 有 分 隔 符 的 文件 中 ， 特 别 是 逗号 分 隔 值 (CSV) 
和 制 表 符 分 隔 值 文件 。read.tabte 国 数 将 读 取 这 些 分 隔 符 文件 ， 并 将 结果 存储 在 一 个 数据 
框 中 。 它 就 是 这 么 简单 ， 只 需 输 入 文本 文件 的 路 径 ， 即 可 导入 其 内 容 。 


























RedDeerEndocranialVolume.dlm 是 一 个 以 空格 符 分 隔 的 文件 ， 它 包含 了 一 些 使 用 不 同 技术 
测量 得 到 的 马 鹿 的 颅 容积 数据 。( 对 于 那些 对 鹿 头 骨 感 兴趣 的 人 来 说 ， 该 方法 就 是 计算 机 
X 射线 断层 术 ， 它 会 用 到 Finarelli 方程 。 它 用 玻璃 珠 填充 满 头 骨 ， 然 后 使 用 卡 钳 测 量 其 长 
度 、 宽 度 和 高 度 。 在 某 些 情况 下 ， 作 第 二 次 测量 能 够 知道 所 采用 技术 的 准确 性 。 我 已 确 
U: 鹿 死 很 久之 后 才 会 将 它们 的 头骨 填 满 珠子 ! ) 数据 文件 可 以 在 learningr 包 的 extdata 
文件 夹 中 找到 。 前 几 行 数据 请 参见 表 12-1 。 
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表 12-1:，，RedDeerEndocranialVolume.dlIm 样 本 中 的 数据 





SkulllD VoICT VolBead VolLWH VolFinarelli VolCT2 VolBead2 VolLWH2 
DIC44 389 375 1484 337 

Bll 389 370 1722 377 

DIC90 352 345 1495 328 

DIC83 388 370 1683 377 

DIC787 375 355 1458 328 

DIC1573 325 320 1363 291 

C120 346 335 1250 289 346 330 1264 
C25 302 295 1011 250 303 295 1009 
F7 379 360 1621 347 375 365 1647 


该 数据 有 标题 行 ， 所 以 我 们 需要 给 read. table 传递 参数 header = TRUE。 因 为 并 不 是 每 次 
都 会 进行 第 二 次 测量 ， 所 以 不 是 所 有 行 都 是 完整 的 。 给 read.table 传递 参数 fill = 


会 使 用 NA 值 来 代替 那些 缺失 的 域 。 下 例 中 的 system. file 国 数 用 于 定位 包 中 的 文 从 
下 例 中 ，RedDeerEndocranialVolume.dlm XH 


注意 





library(learningr) 
deer_file <- system.file( 
"extdata", 
"RedDeerEndocranialVolume.dlm", 
package = "learningr" 
) 
deer_data <- read.table(deer_file, header = TRUE, fill = TRUE) 


str(deer_data, vec.len = 1) #vec. len 改变 了 输出 的 数量 

## 'data.frame': 33 obs. of 8 variables: 

## $ SkullID : Factor w/ 33 levels "A4","B11","B12",..: 14... 
## $ VoLCT : int 389 389 ... 

## $ VolBead : int 375 370... 

## $ VoLLWH : int 1484 1722... 

## $ VolFinarelli: int 337 377... 

## $ VolCT2 : int NANA... 

## $ VolBead2 : int NANA... 

## $ VoLLWH2 : int NANA... 


head(deer_data) 


## SkullID VolCT VolBead VoLLWH VolFinarelli VoLCT2 VolBead2 VoLLWH2 





TT 





在 Learningr 包 中 的 extdata 文件 夹 中 )。 


TRUE 


(在 


## 1 DIC44 389 375 1484 337 MA NA NA 
## 2 Bil 389 370 1722 377 MA NA NA 
## 3 DIC90 352 345 1495 328. MNA NA NA 
## 4 DICB3 388 370 1683 377 MA NA NA 
## 5 DIC787 375 355 1458 328 MA NA NA 
## 6 DIC1573 325 320 1363 291 MA NA NA 
， 每 个 列 的 类 已 自动 确定 ， 行 和 列 的 名 字 也 已 自动 分 配 。 列 名 (默认 情况 下 ) 必须 








是 有 效 的 变量 名 (通过 使 用 make.names)， 如 果 不 提供 行 名 那么 行将 就 会 按 1、2、3 编号 ， 
以 此 类 推 。 


有 很 多 参数 可 以 用 来 指定 如 何 读 取 该 文件 ， 其 中 最 重要 的 可 能 是 sep， 它 决定 了 使 用 哪个 
字符 作为 字段 之 间 的 分 隔 符 。nrow 可 以 指定 读 取 数 据 的 行 数 ， 而 skip 决定 跳 过 文件 开始 
的 多 少 行 。 更 多 高 级 选项 包括 : 覆盖 默认 的 行 名 、 列 名 和 类 ， 指 定 输入 文件 的 字符 编码 ， 
以 及 输入 的 字符 串 格 式 的 列 如 何 声 明 。 


AJL read. table 的 包装 函数 使 用 起 来 比较 方便 。read.csv 分 隔 符 默 认 设置 为 逗号 ， 并 假 
设 数据 有 标题 行 。read.csv2 是 它 的 欧洲 表亲 ， 它 使 用 逗号 作为 小 数位 ， 并 用 分 号 作为 分 
隔 符 。 同 样 地 ，read.delim 和 read.delim2 将 分 别 使 用 句号 或 和 逗号 作为 小 数位 来 导入 制 表 
符 分 隔 的 文件 。 








FLZE 2008 年 8 月， 在 英国 的 洛斯 托 夫 特 ， 环 境 、 渔 业 和 水 产 养 殖 科 学 中 心 (CEFAS) 的 
科学 家 把 贴 上 标签 的 压力 和 温度 传感器 放 在 一 种 棕色 螃蟹 身上 ， 并 把 它们 投入 北海 。 螃 蟹 
自在 地 游荡 了 一 年 之 后 ， 汐 民 抓 住 了 它 ， 并 把 标签 送 回 了 CEFAS。 














从 该 标签 中 获取 的 数据 以 及 一 些 元 数据 都 存储 在 一 个 CSV 文件 中 。 文 件 的 前 几 行 是 这 样 的 : 





Comment :- clock reset to download data 


The following data are the ID block contents 


Firmware Version No 2 

Firmware Build Level 70 

The following data are the Tag notebook contents 

Mission Day 405 

Last Deployment Date 08/08/2008 09:55:00 
Deployed by Host Version 5.2.0 

Downloaded by Host Version 6.0.0 

Last Clock Set Date 05/01/2010 10:34:00 
The following data are the Lifetime notebook contents 

Tag ID A03401 

Pressure Range 10 

No of sensors 2 


在 这 种 情况 下 ， 我 们 不 能 仅 调用 read.csv 就 把 所 有 东西 都 读 取出 来 ， 因 为 不 同 的 数据 块 
中 所 含 的 字段 数量 不 同 ， 而 且 每 个 字段 也 确实 不 同 。 我 们 需要 使 用 read.csv 中 的 skip 和 
nrow 参数 指定 要 读 取 文 件 中 哪些 位 置 : 








crab_file <- System.fiLe( 
"extdata", 
"crabtag.csv", 
package = "Learningr" 














TE 1: 具体 就 是 从 北海 东部 德国 附近 迁移 到 北海 西部 英国 了 





HE. 








m 
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) 
(crab_id_block <- read.csv( 
crab_file, 
header = FALSE, 
skip 
nrow 


)) 


3, 
2 


## V1 V2 
## 1 Firmware Version No 2 
## 2 Firmware Build Level 70 


(crab_tag_notebook <- read.csv( 


crab_file, 

header = FALSE, 

skip = 8, 

nrow = 5 

)) 

## V1 V2 
## 1 Misston Day 405 
## 2 Last Deployment Date 08/08/2008 09:55:00 
## 3 Deployed by Host Version 5.2.0 
## 4 Downloaded by Host Version 6.0.0 
## 5 Last Clock Set Date 05/01/2010 10:34:00 


(crab_lifetime_notebook <- read.csv( 


crab_file, 

header = FALSE, 

skip = 15, 

nrow = 3 
)) 
## Vi V2 
## 1 Tag ID AQ3401 
## 2 Pressure Range 10 
## 3 No of sensors 2 
Wa 
is colbycol 和 sqldf 包 中 的 函数 可 用 于 把 CSV 文件 的 部 分 数据 读 取 到 R 中 。 
ae 


。 如 果 你 并 不 需要 所 有 列 或 所 有 行 ， 这 能 加 快速 度 。 








i 





在 导入 此 类 文件 时 ， 你 可 以 使 用 scan 函数 来 真正 地 从 底层 进行 控制 ，read.table 也 是 基于 
此 函数 实现 的 。 通 常情 况 下 ，scan 应 该 被 避免 使 用 ， 但 它 对 于 处 理 格式 奇怪 的 和 非 标准 的 
文件 非常 有 用 。 
















Va 
=P 如 果 你 的 数据 是 从 另 一 种 语言 中 导入 的 ， 那 么 可 能 需要 把 na.strings 参数 
ae 





a 传递 给 read.table。 对 于 从 SQL 导出 的 数据 ， 则 使 用 na.strings = "NULL". 


对 于 从 SAS 或 Stata 导出 的 数据 ， 使 用 na.strings = "."。 从 Excel 中 导出 
的 数据 ， 使 用 na.strings = c("", "#N/A", "#DIV/O!", "#NUM!"). 


ws 











与 此 相反 的 任务 是 写 入 文件 ， 这 通常 比 读 取 文件 要 更 简单 ， 因 为 你 无 需 担 心 读 取 文件 时 出 
现 的 各 种 怪事 一 一 通常 人 们 想 创造 一 些 标准 的 东西 。 很 明显 ，write.table 和 write.csv 分 
别 对 应 着 read.table 和 read.csv 的 读 操 作 。 


这 两 个 国 数 都 需要 一 个 数据 框 和 写 和 文件 的 路 径 作 为 参数 。 它 们 还 提供 了 几 个 选项 以 自 定 
义 输出 〈 例 如 : 是 否 包含 列 名 ,应 使 用 什么 样 的 输出 文件 字符 编码 ) : 











write.csv( 
crab_lifetime_notebook, 
"Data/Cleaned/crab lifetime data.csv", 
row.names = FALSE, 
fileEncoding = "utf8" 

) 


12.3.2 ” 非 结构 化 文本 文件 

不 是 所 有 的 文本 文件 都 像 定 界 符 文件 那样 有 一 个 定义 良好 的 结构 。 如 果 文 件 的 结构 松散 ， 
更 简单 的 做 法 是 ， 先 读 入 文件 中 的 所 有 文本 行 ， 再 对 其 内 容 进行 分 析 或 操作 。readLines 
(注意 大 写字 母 L) 就 提供 了 这 种 方法 。 它 接受 一 个 文件 路 径 (或 文件 连接 ) 和 一 个 可 选 的 
最 大 行 数 作为 参数 来 读 取 文件 。 这 里 将 导入 莎士比亚 的 《暴风 两 》 的 十 登 堡 计划 版 本 : 


























text file <- System.fiLe( 
"extdata", 
"Shakespeare's The Tempest, from Project Gutenberg pg2235.txt", 
package = "Learningr" 

) 

the_tempest <- readLines(text_file) 

the_tempest[1926:1927] 


## [1] " Ste. Foure Legges and two voyces; a most delicate" 
## [2] "Monster: his forward voyce now is to speake well of" 


writeLines 用 于 执行 与 readLines 相反 的 操作 。 它 写 入 文件 时 需要 一 个 字符 向 量 和 文件 作 
为 输入 参数 : 





writeLines( 
rev(text_file), #rev 执行 向 量 的 相反 操作 
"Shakespeare's The Tempest, backwards.txt" 


) 


12.3.3 XML 和 HTML 文 件 


XML 文件 被 广泛 地 用 于 存储 磐 套 数据 。 许 多 标准 的 文件 类 型 和 协议 都 基于 它 ， 例 如 : 用 
于 提供 新 闻 资 料 的 RSS (Really Simple Syndication) ， 用 于 跨 计 算 机 网 络 传递 结构 化 数据 的 
SOAP (Simple Object Access Protocol) ， 以 及 网 页 中 常用 的 XHTML。 

















R 的 基本 包 没 有 读 取 XML 文件 的 能 力 ， 不 过 XML 包 已 被 其 R 核心 成 员 开 发 出 来 了 。 现 在 
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就 安装 它 吧 | 
install.packages("XML") 


当 你 导入 一 个 XML 文件 时 ,该 XML 包 将 提供 两 种 选择 以 存储 结果 : 一 是 利用 内 部 市 点 
(即使 用 C 代码 来 存储 对 象 ， 这 是 默认 值 )， 或 使 用 R 节点。 通常， 你 应 使 用 内 部 节点 来 存 
储 ， 因 为 这 样 就 能 用 XPath (马上 就 会 谈 到 它 ) 来 查询 节点 树 。 


有 几 个 国 数 可 用 于 导入 XML 数据 ， 如 xmLParse 和 其 他 一 些 使 用 稍 不 同 的 默认 值 的 包装 函数 : 


























library(XML) 

xml_file <- system.file("extdata", "options.xml", package = "learningr") 

r_options <- xmlParse(xml_file) 
使 用 内 部 节点 的 一 个 问题 是 ，str 和 head 等 汇总 函数 不 能 和 它们 一 起 使 用 。 要 使 用 R- 级 的 
节点 ， 请 设置 useInternalNodes = FALSE (或 使 用 xmLTreeParse， 它 会 默认 设置 此 项 属性 ) : 


xmlParse(xml_file, useInternalNodes = FALSE) 
xmlTreeParse(xml_file) # 作用 相同 














XPath 是 一 种 用 于 查询 XML 文档 的 语言 ， 它 能 基于 某 些 过 着 规则 寻找 到 相应 的 节点 。 在 
下 例 中 ， 我 们 将 在 文档 // 中 到 处 寻找 命名 为 variable 的 结 点 ， 此 结 点 [] 的 name 属性 @ 
包含 contains 了 warn 字符 串 。 








xpathSApply(r_options, "//variable[contains(@name, 'warn')]") 


## [[1]] 

## <variable name="nwarnings" type="numeric"> 
## <value>50</value> 

## </variable> 


## [[2]] 

## <variable name="warn" type="numeric"> 
## <value>0</value> 

## </variable> 


## [[3]] 

## <variable name="warning_Length" type="numeric"> 
## <value>1000</value> 

## </variable> 


这 种 查询 在 提取 网 页 数据 中 非常 有 用 。 正 如 你 所 料 ，htmLParse 和 htmlTreeParse 是 用 于 
HTML 页 面 导 入 的 国 数 ， 它 们 的 行为 方式 基本 一 样 。 XML 格式 在 序列 化 (也 即 存储 ) 对 
象 时 非常 有 用 ， 这 种 格式 可 被 大 多 数 其 他 软件 读 取 。XML 包 没 有 提供 序列 化 的 功能 ， 但 
你 可 以 使 用 Runiversal 包 中 的 makexml 函数 来 完成 它 。Options.xml 文件 由 以 下 代码 创建 : 

















library(Runiversal) 
ops <- as.list(options()) 
cat(makexml(ops), file = "options.xml") 
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12.3.4 JSON 和 YAML 文 件 

XML 的 主要 问题 是 它 太 宛 长 了 ， 且 你 需要 显 式 地 指定 数据 的 类 型 ( 它 在 默认 情况 下 不 能 
区 分 字符 串 和 数字 )， 这 就 使 得 它 更 见长 了 。 如 果 文 件 大 小 很 重要 (例如 ， 当 你 要 在 网 络 
上 传输 大 量 数据 集 时 ) ， 信 息 过 于 宛 余 就 成 了 问题 。 














于 是 ， 有 人 发 明了 YAML 和 它 的 子 集 JSON 来 解决 这 些 问题 。 它 们 特别 适合 于 通过 网 络 传 
输 大 量 数据 集 ， 尤 其 是 数字 数据 和 数组 。JSON 是 Web 应 用 程序 彼此 之 间 传 递 数据 的 事实 
标准 。 

有 两 个 包 可 用 于 处 理 JSON 数据 : RISONIO 和 rjson。 在 很 长 一 段 时 间 内 ，rjson 都 存在 性 能 
问题 ， 因 此 唯一 值得 推荐 的 包 是 RJSONI0。 不 过 ， 性 能 的 问题 现在 已 经 修复 ， 所 以 它 也 算 
是 一 个 备 选 包 。 在 大 多 数 情况 下 ， 你 使 用 哪个 包 都 可 以 。 只 有 当 你 遇 到 格式 不 正确 或 非 标 
准 的 ISON 时 会 看 出 差别 。 


在 读 入 不 正确 的 JSON FF, RISONIO 一般 比 rjson 更 宽容 。 这 是 否 是 好 事 取决 于 你 所 使 用 
的 场景 。 如 果 你 想 简单 地 导入 ISON 数据 ，RJSONIO 就 是 最 好 的 选择 。 如 果 你 想 对 有 问题 
的 JSON 数据 的 保持 警觉 (或 许 是 你 的 同事 生成 的 一 一 我 肯定 ， 你 绝 不 会 生成 有 问题 的 
JSON)， 那 么 rjson 就 是 最 好 的 。 






































幸好 ， 在 这 两 个 包 中 读 取 和 写 人 ISON 数据 的 函数 名 基本 相同 ， 所 以 很 容易 在 它们 之 间 切 
换 。 在 下 例 中 ， 双 冒号 :: 用 于 把 相同 名 字 的 函数 从 不 同 的 包 中 分 别 出 来 (如 果 只 加 载 两 
个 包 中 的 一 个 ， 就 不 需要 双 冒 号 ) : 








library(RJSONIO) 

library(rjson) 

jamaican_city_file <- System.fiLe( 
"extdata", 
"Jamaican Cities.json", 
package = "Learningr" 

) 


(jamaican_cities_RJSONIO <- RISONIO::fromJSON( jamaican_city_file) ) 


## SKingston 

## SKingston$popuLation 
## [1] 587798 

Be 

## SKingston$coordinates 
## Longitude latitude 
## 17.98 76.80 


## $ Montego Bay 

## $ Montego Bay $population 
## [1] 96488 

## 

## $*Montego Bay Scoordinates 
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## Longitude latitude 
HE 18.47 77.92 


(jamaican_cities_rjson 


## SKingston 


<- rjson::fromJSON(file = jamaican_city_file)) 


## SKingstonSpopuLation 


## [1] 587798 
Ht 


## $Kingston$coordinates 
## $Kingston$coordinates$longitude 


## [1] 17.98 
HH 


## $Kingston$coordinates$latitude 


## [1] 76.8 

## 

Be 

## 

## $`Montego Bay 


## S$ Montego Bay Spopulation 


## [1] 96488 
## 


## $Montego Bay ‘$coordinates 
## $Montego Bay $coordinates$longitude 


## [1] 18.47 
HH 


## $`Montego Bay`$coordinates$latitude 


## [1] 77.92 





请 注意 ，RJSONIO 把 每 个 城市 的 坐标 简化 为 一 个 向 量 。 这 种 功能 可 通过 simplify = FA 


来 关闭 ， 这 样 产 生 的 对 象 就 和 rjson 产生 的 完全 一 样 。 





LSE 


有 点 讨厌 的 是 ，JSoON 的 规范 不 允许 无 穷 值 或 NaN 值 ， 而 且 它 对 缺失 数 的 定义 比较 模糊 。 这 
两 个 包 处 理 这 些 值 的 方式 有 所 不 同 : RJSONIO 把 NaN 和 NA 映射 为 JSON 的 null, 但 保留 正 
负 无 穷 ， 而 rjson 会 把 所 有 这 些 值 都 转换 为 字符 串 : 


special_numbers <- c(NaN, NA, Inf, -Inf) 
RISONIO: : toJSON(special_numbers) 


## [1] "[ null, null, 


Inf, -Inf ]" 


rjson: : toJSON(special_numbers) 


## [1] "[\"NaN\",\"NA\ 


因为 这 两 种 方法 都 用 于 处 型 


ie we awl 























备 受 限制 的 ISON 规范 ， 所 以 如 果 你 发 现 需 要 大 量 地 处 理 


这 








些 特殊 数字 类 型 (或 想 在 你 的 数据 对 象 中 加 些 评论 ) ， 那 么 最 好 还 是 使 用 YAML。 在 yaml 
包 中 有 两 个 函数 能 导入 YAML 数据 : yaml.load 接受 一 个 YAML 的 字符 串 ， 并 将 其 转换 为 
一 个 R 对 象 ，yaml.load _file 也 一 样 ， 不 过 它 把 输入 的 字符 串 作 为 包含 YAML 文件 的 路 








径 处 理 : 
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Library(yamL) 
yamL.load_file(jamaican_city_file) 


## SKingston 

## SKingston$SpopuLation 

## [1] 587798 

#H 

## SKingston$coordinates 

## SKingston$coordinates$longitude 
## [1] 17.98 

#H 

## ŞKingston$coordinates$latitude 
## [1] 76.8 


## $`Montego Bay` 

## $`Montego Bay`$population 

## [1] 96488 

#H 

## $`Montego Bay`$coordinates 

## $`Montego Bay`$coordinates$longitude 
## [1] 18.47 

#H 

## $`Montego Bay`$coordinates$latitude 
## [1] 77.92 


as.yaml 则 执行 相反 的 任务 ， 它 会 把 R 对 象 转换 为 YAML 字符 串 。 


12.4 读 取 二 进 制 文件 

很 多 软件 都 把 它们 的 数据 存储 为 二 进 制 格式 (有 一 些 是 专 有 的 ， 有 一 些 则 符合 公开 定义 的 
标准 )。 二 进 制 格式 通常 要 比 它们 的 文本 格式 要 小 ， 因 此 使 用 二 进 制 格式 的 性 能 可 能 会 更 
好 ， 不 过 这 是 以 可 读 性 为 代价 的 。 

许多 二 进 制 文件 的 格式 都 是 专 有 的 ， 这 违背 了 自由 软件 的 原则 。 如 果 你 可 以 选择 ， 最 好 不 
要 使 用 这 种 格式 ， 以 免 数 据 被 锁定 在 一 个 你 缺乏 控制 权 的 平台 上 。 














12.4.1 读 取 Excel 文 件 

Microsoft Excel 是 目前 世界 上 最 流行 的 电子 表格 程序 ， 也 很 可 能 是 世界 上 最 流行 的 数据 分 
析 工 具 。 可 惜 ， 它 的 文档 格式 XLS 和 XLSX 与 其 他 软件 的 兼容 性 不 好 ， 尤 其 是 对 于 那些 
JE Windows 平台 的 软件 。 这 意味 着 ， 你 需要 做 一 些 试验 才能 找到 合适 的 配置 ， 使 你 所 选择 
的 操作 系统 能 与 Excel 文件 兼容 。 









































xLsx 是 基于 Java 的 跨 平台 包 ， 这 就 是 说 ， 至 少 在 理论 上 ， 它 可 以 在 任何 系统 上 读 取 任何 
Excel 文件 。 它 提供 了 读 取 Excel 文件 的 函数 : 使 用 read.xLsx 和 read.xLsx2 导入 电子 表 
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格 ， 它 们 分 别 在 R 和 Java 中 做 了 更 多 的 处 理工 作 。 有 两 种 选择 其 实 很 多 余 ， 你 当然 会 


择 read.xLsx2， 





因为 它 的 速度 更 快 且 底层 的 Java 库 也 比 R 程序 更 加 成 熟 。 





下 例 显示 了 环 法 自行 车 赛 拉 普 德 效 山 地 段 的 最 佳 成 绩 ， 以 及 每 个 赛车 手 是 否 因 服 用 禁 药 而 


被 判 有 罪 的 记录 。cotCLasses 参数 将 决定 数据 框 中 每 列 的 类 型 。 这 并 非 是 强制 的 ， 但 这 样 








做 可 以 免 去 日 后 再 处 理 数 据 的 麻烦 : 


library(xlsx) 
bike_file <- system.file( 
"extdata", 

"Alpe d'Huez.xls", 
package = "learning 


) 


r" 


bike_data <- read.xlsx2( 
bike_file, 
sheetIndex = 1, 
startRow = 2, 
endRow = 38, 
colIndex = 2:8, 
colClasses = c( 


) 


) 


head(bike_data) 


## 
## 
## 
HH 
## 
HH 
## 
## 
## 
HH 
HH 
## 
## 
## 


NnUuBRWNPR 


NDnuOBRWNPR 


"character", "numeric", "character", "integer", 
"character", "character", "character" 


Time NumericTime Name Year Nationality DrugUse 
37' 35" 37.58 Marco Pantani 1997 Italy Y 
37' 36" 37.60 Lance Armstrong 2004 United States Y 
38' 00" 38.00 Marco Pantani 1994 Italy yY 
38' 01" 38.02 Lance Armstrong 2001 United States Y 
38' 04" 38.07 Marco Pantani 1995 Italy y 
38' 23" 38.38 Jan Ullrich 1997 Germany Y 

Allegations 


Alleged drug use 
2004 Tou 
Alleged drug use 
2001 Tou 
Alleged drug use 


during 1997 due to high haematocrit levels. 
r de France title stripped by USADA in 2012. 
during 1994 due to high haematocrit levels. 
r de France title stripped by USADA in 2012. 
during 1995 due to high haematocrit levels. 
Found guilty of a doping offense by the CAS. 





xlsReadwWrite 是 xLsx 包 的 另 一 个 选择 ， 但 它 现在 只 适用 于 Windows 下 的 32 位 R 系统。 还 


有 一 些 其 


FN 


他 的 包 能 与 Excel 一 起 工作 。 例 如 ，RExcel 和 excel. link 使 用 COM 连接 从 R 中 














控制 Excel, writexLs 使 用 Perl 写 入 Excel 文件 。gnumeric 包 提 供 了 读 取 Gnumeric 电子 表 
格 的 函数 。 


与 read.xLsx2 相对 应 的 函数 是 (你 猿 对 了 ) write.xlsx2。 它 的 工作 方式 与 write.csv 相 


同 ， 它 的 参数 为 一 个 数据 





EE 和 文件 名 。 除 非 你 真 的 需要 使 用 Excel 电子 表格 ， 否 则 为 了 方 





便 ， 你 最 好 还 是 把 数据 保存 为 文本 格式 。 所 以 请 小 心 使 用 。 





12.4.2 j#ELSAS. Stata, SPSS#NMATLABX {4# 


如 果 你 正在 与 其 他 组 织 的 统计 人 员 合 作 ， 他 们 可 能 会 向 你 发 送 一 些 从 其 他 统计 包 中 生成 的 
文件 。foreign 包 中 包含 了 使 用 read.ssd 读 取 SAS 永久 数据 集 ” (SASTBDAT 文件 )、 使 
用 read.dta 读 取 Stata 的 DTA 文件 、 使 用 read.spss 读 取 SPSS 数据 文件 的 方法 等 。 这 些 
文件 都 可 使 用 write.foreign 写 入 文件 。 

















MATLAB 的 二 进 制 数据 文件 (4 级 及 5 级 ) 可 以 使 用 R.matlab 包 中 的 readMat 和 writemat 
分 别 读 写 。 





12.43 读 取 其 他 文件 类 型 
R 可 读 取 多 种 其 他 类 型 的 文件 数据 。 


它 可 以 使 用 hsr 包 (以 及 在 Bioconductor 中 的 rdhf5 包 ) 读 取 分 层 数据 格式 V5 [HDF5] X 
件 ， 亦 可 使 用 ncdf 包 读 取 网 络 通 用 数据 格式 [NetCDF]。 


它 可 以 使 用 maptools 和 shapefiles 包 读 取 ESRI 公司 的 ArcGIS 空间 数据 文件 (以 及 使 用 
RArcInfo 包 读 取 老 版 本 的 ArcInfo 文件 )。 











它 可 以 通过 jpeg, png, tiff, rtiff 和 readbitmap 包 读 取 光 栅 图 像 格式 。 

















它 可 以 使 用 Bioconductor 中 的 包 来 读 取 各 种 基因 组 数据 格式 。 其 中 最 值得 注意 的 是 ， 它 可 
以 通过 RPPanalyzer 包 读 取 GenePix GPR 文件 (也 称 为 轴 突 文本 文件 ) ; 通过 vcf2geno 包 
读 取 基因 序列 变异 的 VCF (Variant Call Format) ; 通过 rbamtools 〈 它 提供 了 一 个 SAMtools 
的 接口 ) 读 取 二 进 制 序列 比 对 数据 ， 通 过 Lxb 包 读 取 Luminex bead array assay 文件 。 











最 后 ， 还 有 很 多 各 式 各 样 的 格式 散布 于 其 他 包 中 。 不 完全 名 单 包 括 : 用 于 MRI 图 像 
的 4dfp 和 tractor.base 包 ， 用 于 WaveMetrics Igor 二 进 制 格式 文件 的 IgorR 包 ， 用 于 
GENEActiv 观看 加 速度 计数 据 显示 的 GENEAread 包 ， 用 于 INRO 软件 EMME v2 数据 库 文 
件 的 emme2 包 ， 用 于 SEER 癌症 数据 集 (http://seer.cancer.gov/seerstat) 的 SEER2R 包 ， 用 
于 Google Protocol Buffer (http://code.google.com/p/protobuf) 的 rprotobuf 包 ， 用 于 Bruker 
flex 格式 (http://strimmerlab.org/software/maldiquant/) 中 质谱 数据 的 readBrukerFlexData 
包 ， 用 于 在 Models-3 文件 中 社区 多 尺度 空气 质量 模式 的 M3 包 ， 以 及 用 于 世界 生育 率 调查 
的 Read.isi 包 。 








虽然 以 上 很 多 的 包 对 于 大 多 数 人 来 说 完全 没 用 ,但 RR 在 广泛 的 领域 中 有 众多 的 专门 应 
用 一 一 这 一 点 是 相当 震撼 的 。 








注 2: 目前 还 不 能 把 老 的 SAS SD2 文件 导入 到 R。 处 理 这 种 格式 的 最 简 方法 就 是 用 免费 的 SAS 通用 浏览 器 
(http://bit.ly/ldqSmrB) 打开 它 ， 并 重新 保存 为 CSV。 
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12.5 ”Web 数据 











互联 网 上 包含 了 大 量 数据 ， 但 如 果 你 想 手动 访问 网 站 下 载 那 里 的 数据 文件 ， 然 后 再 
硬盘 中 读 取 到 R 中 ， 这 一 系列 动作 需要 大 量 的 手动 操作 ( 且 也 不 易 扩 展 )。 





幸好 ，R 有 很 多 种 方式 可 以 从 网 络 源 导入 数据 并 以 编程 的 方式 检索 数据 ， 这 就 使 数据 处 理 





的 工作 事半功倍 。 


12.5.1 拥有 API 的 网 站 


有 一 些 包 可 通过 网 站 的 API 接口 直接 下 载 数据 到 R 系统 。 例 如 ， 世 界 银 行 已 在 其 网 立 


巴 它 从 




















HEA 


开 了 它 的 世界 发 展 指标 数据 ，wpI 包 可 以 让 你 轻松 地 在 R 中 将 这 些 数据 导入 。 要 运行 以 下 


例子 ， 你 需要 先 安装 WWI 包 : 
install.packages("WDI") 
library(WDI) 


# 列 出 所 有 可 用 的 数据 集 
wdi_datasets <- WDIsearch() 
head(wdi_datasets) 


## indicator 

## [1,] "BG.GSR.NFSV.GD.ZS" 
## [2,] "BM.KLT.DINV.GD.ZS" 

## [3,] "BN.CAB.XOKA.GD.ZS" 

## [4,] "BN.CUR.GDPM.ZS" 

## [5,] "BN.GSR.FCTY.CD.ZS" 

## [6,] "BN.KLT.DINV.CD.ZS" 

## name 

## [1,] "Trade in services (% of GDP)" 

## [2,] "Foreign direct investment, net outflows (% of GDP)" 
## [3,] "Current account balance (% of GDP)" 


## [4,] "Current account balance excluding net official capital grants (% of GDP)" 


"Net income (% of GDP)" 
## [6,] "Foreign direct investment (% of GDP)" 








# 取 其 中 一 个 

wdi_trade_in_services <- WDI( 
indicator = "BG.GSR.NFSV.GD.ZS" 

) 


str(wdi_trade_in_services) 





## 'data.frame': 984 obs. of 4 variables: 


## $ iso2c Scene LAE TA VAY sg 

## $ country : chr "Arab World" "Arab World" "Arab World" ... 
## $ BG.GSR.NFSV.GD.ZS : num 17.5 NA NANA... 

## $ year : num 2005 2004 2003 2002 ... 














SmarterPoland 包 提 供 了 类 似 的 功能 ， 它 封装 了 波兰 政府 的 数据 。 使 用 quantmod 包 可 以 访 

















问 股票 行情 (默认 是 雅虎 的 数据 ， 也 可 以 选择 其 他 儿 个 数据 源 ) : 


TwitterR 包 能 够 访问 Twitter 账号 及 其 微 博 信息 。 只 需要 


library(quantmod) 

# 如 果 你 正在 使 用 9.5.9 之 前 的 版 本 ， 那 么 请 设置 以 下 选项 ， 
# 或 者 把 参数 auto.assign = FALSE 传 给 getSymobols. 
options(getSymbols.auto.assign = FALSE) 

microsoft <- getSymbols("MSFT") 





head(microsoft) 

## MSFT.Open MSFT.High MSFT.Low MSFT.Close 
## 2007-01-03 29.91 30.25 29.40 29.86 
## 2007-01-04 29.70 29.97 29.44 29.81 
## 2007-01-05 29.63 29.75 29.45 29.64 
## 2007-01-08 29.65 30.10 29.53 29.93 
## 2007-01-09 30.00 30.18 29.73 29.96 
## 2007-01-10 29.80 29.89 29.43 29.66 
## MSFT .Adjusted 

## 2007-01-03 25.83 

## 2007-01-04 25.79 

## 2007-01-05 25.64 

## 2007-01-08 25.89 

## 2007-01-09 25.92 

## 2007-01-10 25.66 


H 


事先 配置 好 (由 于 Twitter 的 


MSFT.VoLume 
76935100 
45774500 
44607200 
50220200 
44636600 
55017400 





API 需要 你 创建 一 个 应 用 程序 ， 并 使 用 OAuth 进行 注册 。 请 阅读 此 包 的 安装 说 明 ) ， 此 包 
就 能 非常 容易 地 导入 Twitter 的 数据 并 作 进 一 步 的 网 络 分 析 ， 或 假装 工作 而 实际 上 只 是 在 
刷 微 博 。 


12. 











5.2 抓 取 网 页 


R 有 内 置 的 web 服务 器 ， 所 以 某 些 需 要 读 取 数据 的 函数 默认 是 带 有 网 络 访问 功能 的 。 
read.table (MALATE RAR, Pld read.csv) 接受 一 个 URL 作为 参数 (而 不 是 一 个 本 地 文 
它 会 在 导入 数据 之 前 将 副本 下 载 到 一 个 临时 文件 中 。 例 如 ， 经 济 研究 员 Justin Rao 的 
网 站 有 从 2002 年 到 2008 年 间 的 NBA 工资 数据 : 


件 )， 











salary_url <- "http://www.justinmrao.com/salary_data.csv" 


salary_data <- read.csv(salary_url) 
str(salary_data) 


由 于 通过 互联 网 访问 一 个 大 文件 时 速度 可 能 会 很 慢 ， 如 果 经 常 使 用 该 文件 ， 更 好 的 策略 是 
用 download. file 对 要 下 载 的 文件 创建 一 个 本 地 副本 ， 然 后 再 导入 : 


salary_url <- "http://www. justinmrao.com/salary_data.csv" 


local_copy <- "my local copy.csv" 
download. file(salary_url, Local_copy) 
salary_data <- read.csv(local_copy) 
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其 他 更 高 级 的 网 页 访问 方法 可 以 在 Rcurl 包 中 找到 ， 它 能 访问 Libcurl 网 络 客户 端 接口 程 
序 库 。 如 果 你 的 数据 包含 在 HTML 或 XML 页 面 中 ， 而 不 是 刚好 被 放 在 网 络 上 的 标准 数据 
格式 (An CSV) 时 ， 这 一 点 尤其 有 用 。 


下 例 将 从 美国 海军 天 文人 台 时 间 服 务 部 的 网 站 上 检索 儿 个 时 区 中 的 当前 日 期 和 了 时间。getURL 
函数 将 访问 页 面 并 将 其 内 容 以 字符 串 的 形式 返 











ÉE 


library(RCurl) 

time_url <- "http://tycho.usno.navy.mil/cgi-bin/timer.pl" 
time_page <- getURL(time_url) 

cat(time_page) 


## <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2 Final" //EN> 
## <html> 

## <body> 

## <TITLE>What time is it?</TITLE> 

## <H2> US Naval Observatory Master Clock Time</H2> <H3><PRE> 
## <BR>Jul. 17, 20:43:37 UTC Universal Time 

## <BR>Jul. 17, 04:43:37 PM EDT Eastern Time 

## <BR>Jul. 17, 03:43:37 PM CDT Central Time 

## <BR>Jul. 17, 02:43:37 PM MDT Mountain Time 

## <BR>Jul. 17, 01:43:37 PM PDT Pacific Time 


## <BR>Jul. 17, 12:43:37 PM AKDT Alaska Time 

## <BR>Jul. 17, 10:43:37 AM HAST Hawaii-Aleutian Time 

## </PRE></H3><P><A HREF="http://www.usno.navy.mil"> US Naval Observatory</A> 
## 


## </body></html> 


下 一 步 几 乎 总 是 使 用 XML 包 中 的 htmLParse (或 相关 函数 ) 解析 页 面 。 这 使 你 可 以 提取 其 
有 用 的 节点 。 在 下 例 中 ， 以 \n (换行 符 ) 为 分 隔 符 将 得 到 每 个 时 间 线 ,使 用 \t ( 制 表 符 ) 
分 隔 则 能 获得 时 间 /时 区 对 : 

















library(XML) 

time_doc <- htmlParse(time_page) 

pre <- xpathSApply(time_doc, "//pre")[[1]] 
values <- strsplit(xmlValue(pre), "\n")[[1]][-1] 
strsplit(values, "\t+") 


## [[1]] 
## [1] "Jul. 17, 20:43:37 UTC" "Universal Time" 
## 
## [[2]] 
## [1] "Jul. 17, 04:43:37 PM EDT" "Eastern Time" 
## 
## [[3]] 
## [1] "Jul. 17, 03:43:37 PM CDT" "Central Time" 
Be 
## [[4]] 
## [1] "Jul. 17, 02:43:37 PM MDT" "Mountain Time" 
## 
## [[5]] 
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## [1] "Jul. 17, 01:43:37 PM PDT" "Pacific Time" 


## [[6]] 
## [1] "Jul. 17, 12:43:37 PM AKDT" "Alaska Time" 


## [[7]] 

## [1] "Jul. 17, 10:43:37 AM HAST" "Hawaii-Aleutian Time" 
httr 包 基 于 RCurL， 它 能 提供 了 更 好 的 语法 ， 使 我 们 的 工作 更 加 方便 。 在 httr 中 ， 相 当 于 
RCurl 包 中 getURL 的 函数 是 GET, content 函数 能 在 检索 页 面 内 容 的 同时 解析 它 。 在 下 例 中 ， 
我 们 将 传 入 useInternalNodes = TRUE 来 模仿 htmLParse 的 行为 ， 并 重复 上 例 中 的 行为 : 














library(httr) 
time_page <- GET(time_url) 
time_doc <- content(page, useInternalNodes = TRUE) 


12.6 访问 数据 库 


如 果 数 据 需 要 被 多 人 访问 ， 那 最 好 将 它们 存储 在 一 个 关系 数据 库 中 。 有 许多 数据 库 管 理 
系统 (DBMS) 用 于 关系 数据 库 管理 ，R 也 可 与 所 有 常见 的 数据 库 相 连接 。DBI 包 为 访问 
DBMS 提供 了 统一 的 语法 一 一 目前 的 SQLite、MySQL/MariaDB、PostgreSQL 和 Oracle 都 
能 支持 ， 它 还 提供 了 一 个 封装 了 JDBC (Java Database Connectivity) API 的 函数 。( 连 接 到 
SQL Server 须 使 用 不 同 的 系统 ， 我 们 将 在 下 面 看 到 。) 


要 连接 到 SQLite 数据 库 ， 首 先 你 须 安装 并 加 载 DBI 包 及 后 端的 RSQLite 包 : 






































Library(DBI) 
Library(RSQLite) 


然后 ， 定 义 数据 库 驱 动 程序 的 类 型 是 “SQLite” ， 并 通过 命名 该 文件 来 设置 到 数据 库 的 连接 : 








driver <- dbDriver("SQLite") 

db_file <- system. file( 
"extdata", 
"crabtag.sqlite", 
package = "Learningr" 

) 


conn <- dbConnect(driver, db_file) 
对 于 MySQL 数据 库 来 说 ， 则 需 加 载 RMySOL 包 ， 并 设置 驱动 器 类 型 为 “MySQL ”: 
driver <- dbDriver("MySQL") 


db_file <- "path/to/MySQL/database" 
conn <- dbConnect(driver, db_file) 


对 于 PostgreSQL, Oracle 和 JDBC 来 说 ， 它 们 分 别 需 要 PostgreSQL, ROracle 和 RIDBC 包 ， 
它们 的 数据 库 名 也 是 其 驱动 程序 的 名 字 ， 与 sqlite 和 mySQL 一 样 。 
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要 从 数据 库 中 检索 数据 ， 你 得 写 一 些 SQL 查询 语句 ， 并 使 用 dbGetQuery 把 它 发 送 到 数据 
库 中 。 在 下 例 中 ，SELECT * FROM IdBlock 的 意思 是 : 从 IdBlock 表 中 取得 所 有 列 的 数据 >: 


query <- "SELECT * FROM IdBlock" 
(id_block <- dbGetQuery(conn, query)) 


## Tag ID Firmware Version No Firmware Build Level 
## 1 A03401 2 70 








BE, TETEMAGRERRTE Zn, FPA EDR ob Be PLA sé ais BE LE 








dbDisconnect(conn) 
## [1] TRUE 
dbUnloadDriver (driver) 


## [1] TRUE 





很 容易 一 不 小 心 就 忘记 关闭 连接 ， 特 别 是 当 你 的 连接 发 生 错误 时 。 要 避免 这 种 情况 ， 一 
种 方法 是 把 你 的 代码 封装 到 一 个 函数 中 ， 并 在 on.exit 中 确保 清理 代码 始终 会 被 执行 。 
on.exit 在 其 父 函 数 退 出 时 会 运行 R 的 代码 ， 不 管 它 是 否 正确 地 完成 或 发 生 了 错误 。 我 们 
可 以 使 用 更 安全 的 代码 重 写 之 前 的 范例 ， 如 下 : 


























query_crab_tag_db <- function(query) 
{ 
driver <- dbDriver("SQLite") 
db file <- system.fiLe( 
"extdata", 
"crabtag.sqlite", 
package = "Learningr" 
) 
conn <- dbConnect(driver, db_file) 
on.exit( 


{ 
# 此 代码 在 国 数 之 后 运行 ， 
# 即使 抛 出 一 个 错误 
dbDisconnect(conn) 
dbUnloadDriver (driver) 


} 


dbGetQuery(conn, query) 
} 


向 函数 传 和 一些 SQL 代码 来 查询 螃蟹 标签 的 数据 库 : 
query_crab_tag_db("SELECT * FROM IdBlock") 


## Tag ID Firmware Version No Firmware Build Level 
## 1 A03401 2 70 








TE 3: 任何 称职 的 数据 库 管理 员 都 会 告诉 你 ，SELECT* 这 种 写法 完全 是 偷懒 ， 在 你 把 代码 随意 地 运行 在 服务 
器 上 之 前 ， 应 该 非常 明确 地 指出 你 需要 哪些 列 。 非 常 感谢 。 








在 此 例 中 ，DBI 包 提 供 了 一 个 很 实用 的 函数 ， 使 我 们 不 用 自己 写 SQL 代码 。dbReadTable 
做 你 所 期 望 的 事 : 当 忘 记 你 想 要 的 表 的 名 称 时 ， 它 将 从 已 连接 的 数据 库 中 读 取 表 (使 用 
dbListTables (conn)) : 





dbReadTable(conn, "idblock") 


## = Tag ID Firmware Version No Firmware Build Level 
## 1 A03401 2 70 


## [1] TRUE 


## [1] TRUE 





如 果 你 的 数据 库 没 有 出 现在 以 上 列 出 的 类 型 之 中 ， 可 以 使 用 替代 的 Roc 包 ， 它 使 用 
ODBC 数据 库 连 接 一 一 当 连 接 到 SQL Server 或 Access 数据 库 时 ， 这 非常 有 用 。 与 DBI 相 
比 ， 这 些 国 数 有 着 不 同 的 名 称 ， 但 原理 非常 相似 。 设 置 电脑 上 的 ODBC 数据 源 (通过 
Windows 下 的 控制 面板 ， 或 在 “开始 ”菜单 中 搜索 “ODBC”)，R 就 可 连接 上 。 图 12-1 © 
示 了 Windows 7 上 的 OBDC 注册 向 导 。 




















然后 ， 调 用 odbcConnect 连接 ， 使 用 sqlquery 运行 查询 ， 以 及 odbcClose 在 最 后 进行 请 理 : 


Llibrary(RODBC) 
conn <- odbcConnect('"my data source name") 
id_block <- sqlQuery(conn, "SELECT * FROM IdBlock") 


odbcClose(conn) 
从 R 中 访问 NoSQL 数据 库 (BN Not only SQL 的 简称 。 它 是 轻 量 级 的 数据 存储 仓库 ， 比 起 
传统 的 SQL 关系 数据 库 更 易 扩展 ) 的 方法 不 太 成 熟 。 可 以 通过 RMongo 或 rmongodb 包 访 问 
MongoDB, {È} RCassandra 包 访 问 Cassandra 数据 库 ， 以 及 R4CouchDB 包 访 问 CouchDB[ 还 
没 出 现在 CRAN E, 但 可 以 在 GitHub 下 载 ] 。 

















5 ODBC Data Source Administrator x 

















User DSN | System DSN | File DSN | Drivers | Tracing | Connection Pooling | About 


User Data Sources: 











Name Diver [aa | 
dBASE files Microsoft Access dBASE Driver (dbf. "ndx 
Excel Files Microsoft Excel Driver (xls, “xdsx, *xdsm, * x| 


MS Access Database Microsoft Access Driver ( mdb, “accdb) 





四 上 








An ODBC User data source stores information about how to connect to 
EEE] the indicated data provider. A User data source is only visible to you, 
== and can only be used on the curent machine 























my |] aiid 

















12-1: 使 用 ODBC 数据 源 管理 器 注册 ODBC 数据 源 
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12.7 ”小结 


。 R 所 提供 的 数据 集 或 包 可 以 从 data 函数 中 取得 。 

。 可 以 从 很 多 外 部 数据 源 中 把 数据 导入 R。 

e read.table 及 其 变种 函数 能 读 取 和 矩形 数据 。 

e readLines 能 读 取 那 些 非 标准 格式 的 文本 文件 。 

。 XML 包 能 读 取 HTML 和 XML 数据 。 

e RJSONI0、rjson 和 yaml 包 能 读 取 JSON/Y AML 文件 。 
。 有 很 多 的 包 可 用 于 读 取 Excel 文件 ， 例 如 xLsx。 

。 foreign 能 从 统计 软件 中 读 取 数据 。 

。 有 大 量 的 包 可 以 用 来 操作 数据 库 ， 例 如 DBI 和 RODBC。 


12.8 知识 测试 : 问题 


。 问题 12-1 
如 何在 你 的 机 器 上 找到 所 有 内 置 于 R 的 数据 集 和 包 ? 
。 问题 12-2 


read.csv 和 read.csv2 国 数 之 间 的 区 别 是 什么 ? 


。 问题 12-3 
尔 将 如 何 把 数据 从 Excel 电子 表格 中 导入 到 及 中 ? 


。 问题 12-4 
你 将 如 何 导入 一 个 从 互联 网 上 找到 的 CSV 文件 数据 ? 


。 问题 12-5 
DBI 包 为 儿 个 数据 库 管理 系统 提供 了 一 个 一 致 的 接口 。 请 问 哪些 系统 能 被 支持 ? 


12.9 知识 测试 : AY 


e 练习 12-1 
在 learning 包 的 extdata 文件 夹 中 ， 有 一 个 名 为 hafu.csv 的 文件 ， 其 中 有 关于 混血 漫画 
中 的 人 物 数 据 。 请 将 数据 导入 到 一 个 数据 框 中 。[5] 


。 练习 12-2 
也 是 在 learning 包 的 extdata 文件 夹 中 ， 有 一 个 名 为 多 重 耐 药 淋病 的 Excel 文件 infection. 
xls。 从 第 一 个 (也 是 唯一 的 ) 表 中 将 数据 导入 到 数据 框 中 。 提 示 : 如 果 你 先 在 电子 表格 程 
序 中 查看 该 文件 会 更 容易 些 。Libreoffice 包 是 免费 ， 能 轻而易举 地 完成 这 个 任务 。[10] 


。 练习 12-3 
从 本 章 中 所 摘 述 的 螃 蟹 标签 SQLite 数据 库 中 ， 把 Daylog 表 的 内 容 导 入 到 一 个 数据 框 中 。[10] 
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给 你 什么 格式 的 数据 ， 它 似乎 总 和 你 所 要 的 不 是 同一 回 事 ， 而 且 ， 无 论 是 谁 给 你 的 ， 
rele tee E 不 是 数据 分 析 中 有 趣 的 部 分 ， 但 你 却 不 得 不 为 此 
花费 大 量 的 时 间 。 幸 好 ，R 有 多 种 可 供 选择 的 工具 来 帮 你 完成 这 些 任务 。 


13.1 本 章 目标 
阅读 本 章 后 ， 你 会 了 解 以 下 内 容 ， 


。 如 何 对 字符 串 进 行 操作 和 清理 类 别 变量 ， 
。 如 何 抽取 数据 框 的 子 集 以 及 转换 数据 杠 ; 

。 如 何 把 数据 框 的 形状 由 宽 变 长 ， 然 后 再 改 回 去 ， 
。 理解 分 类 和 排序 。 


x em 
13.2 清理 字符 串 
早 在 第 7 章 ， 我 们 了 解 到 一 些 简单 的 字符 串 操作 任务 ， 如 使 用 paste 把 字符 串 合 并 在 一 起 ， 
以 及 使 用 substring 提取 部 分 字符 串 等 。 


一 个 非常 普遍 的 问题 是 : 逻辑 值 何 时 会 被 编码 成 R 不 理解 的 值 。 在 alpe_d_huez 循环 数 
据 集中 ，Druguse 列 ( 指 出 每 个 车 手 是 否 曾 被 指控 服用 违禁 药 ) 中 数值 被 编码 为 “Y” 和 
“N”， 而 不 是 TRUE 或 FALSE。 对 于 这 种 简单 的 匹配 关系 ， 我 们 可 以 直接 使 用 正确 的 逻辑 值 
ETE ETE A : 
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yn_to_logical <- function(x) 
{ 
y <- rep.int(NA, Length(x)) 
y[x == "Y"] <- TRUE 
y[x == "N"] <- FALSE 
y 
} 


默认 把 值 设 为 NA 可 以 让 我 们 处 理 那 些 不 能 匹配 “Y” 或 “N” 的 字符 串 。 我 们 可 以 显 式 地 
调用 函数 : 





alpe_d_huez$DrugUse <- yn_to_logical(alpe_d_huez$DrugUse) 


这 种 直接 将 一 个 字符 串 替换 为 另 一 个 的 方法 ， 对 于 那些 需要 替换 许多 字符 串 的 来 说 扩展 性 
不 是 很 好 。 如 有 果 你 有 一 万 个 可 能 的 输入 ， 那 么 使 用 一 个 国 数 来 逐个 替换 会 很 难 避免 书写 出 
背 ， 这 种 代码 也 很 难 维护 。 


幸运 的 是 ， 有 其 他 更 巧妙 的 方法 可 以 相对 容易 地 检测 、 提 取 和 替换 掉 与 模式 相 匹配 的 部 分 
FER. RAAI] (KAE) 基于 Unix grep 工具 的 内 置 函数 能 处 理 这 些 任务 。 它 们 接 
受 一 个 要 操作 的 字符 串 以 及 要 匹配 的 正则 表达 式 。 正 如 在 第 1 章 所 说 的 ， 正 则 表达 式 是 一 
种 模式 ， 它 能 非常 灵活 地 描述 字符 串 的 内 容 。 在 匹配 诸如 电话 号 码 或 电子 邮件 地 址 这 种 复 
杂 的 字符 串 数 据 类 型 时 ， 它 们 非常 有 用 t 









































grep, grepl 和 regexpr 函数 都 能 找到 与 模式 相 匹 配 的 字符 串 ，sub 和 gsub 函数 能 替换 
匹配 的 字符 串 。 在 经 典 的 R 风格 中 ， 这 些 函数 都 是 无 比 准确 和 非常 强大 的 ， 但 由 于 历史 
的 原因 ， 它 的 命名 、 参 数 的 顺序 和 返回 值 都 比较 奇怪 。 幸 好 ， 就 像 plyr A) apply 函数 ， 
Lubridate 为 日 期 一 时 间 函 数 提供 了 一 致 的 封装 一 样 ，stringr 包 对 字符 串 操作 函数 也 提 
供 了 一 致 的 封装 。 不 同 之 处 在 于 ， 偶 尔 需要 使 用 基本 的 apply 函数 或 日 期 -时 间 函 数 时 ， 
stringr 已 足够 先进 ， 你 根本 无 须 再 使 用 grep。 因 此 ， 浏 览 一 下 ?grep 的 帮助 页 面 即 可 ， 
无 需 投 入 太 多 精力 。 


下 例 使 用 Learning 包 中 的 english_monarchs 数据 集 。 它 包含 了 从 后 罗马 时 代 (5 世纪 ) Be 
格 兰 被 分 裂 为 七 王国 直到 13 世纪 初 英 国 接管 了 爱尔兰 这 上段 时 期 的 统治 者 的 名 字 和 日 期 : 



































data(english_monarchs, package = "learningr") 
head(english_monarchs) 


## name house start.of.reign end.of.reign domain 
## 1 Wehha Wuffingas NA 571 East Anglia 
## 2 Wuffa Wuffingas 571 578 East Anglia 
## 3 Tytila Wuffingas 578 616 East Anglia 
## 4 Radwald Wuffingas 616 627 East Anglia 
## 5 Eorpwald Wuffingas 627 627 East Anglia 





注 1: 参见 assertive 包 为 此 预 装 的 一 些 正则 表达 式 。 
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627 


630 East Anglia 


NA 
FALSE 
TRUE 
FALSE 
FALSE 


## 6 Ricberht Wuffingas 

## =  length.of.reign.years reign.was.more.than.30.years 
## 1 NA 

HH 2 T 

## 3 38 

## 4 11 

## 5 0 

## 6 3 





FALSE 


历史 的 问题 之 一 是 它 的 数据 实在 太 多 了 。 幸 好 ， 上 古怪 或 杂乱 的 数据 会 将 你 引 向 历史 中 有 意 


思 的 那 部 分 ， 即 我 们 可 以 压缩 数据 而 聚焦 





搜索 多 号 找到 这 些 交 





到 有 趣 的 部 分 。 例 如 ， 尽 管 英格兰 地 区 有 了 七 个 王 
国 ， 但 它们 的 边界 却 极 不 确定 ， 有 时 一 个 王国 会 征服 另 一 个 。 我 们 可 以 通过 在 domain 列 中 


交叉 点 。 为 了 检测 出 相关 的 模式 ， 我 们 使 用 str_detect 国 数 。fixed K 
告诉 str_detect: 我 们 正在 寻找 一 个 固定 字符 串 GES) 而 非 正 则 表达 式 。str_detect 








将 返回 一 个 可 用 于 索引 的 逻辑 向 量 : 





library(stringr) 





multiple_kingdoms <- str_detect(english monarchs$domain, fixed(",")) 
english_monarchs[multiple kingdoms, c("name", "domain")] 


HH name 
## 17 offa 
## 18 Offa East 
## 19 Offa and Ecgfrith East 
## 20 Ecgfrith East 
## 22 Cenwulf East 
## 23 Cenwulf and Cynehelm East 
## 24 Cenwulf East 
## 25 Ceolwulf East 
## 26 Beornwulf 
## 82 Ecgbehrt and Athelwulf 
## 83 Ecgbehrt and Athelwulf 
## 84 Ecgbehrt and Athelwulf 


domain 

East Anglia, Mercia 
Anglia, Kent, Mercia 
Anglia, Kent, Mercia 
Anglia, Kent, Mercia 
Anglia, Kent, Mercia 
Anglia, Kent, Mercia 
Anglia, Kent, Mercia 
Anglia, Kent, Mercia 
East Anglia, Mercia 


Kent, 
Kent, Mercia, 
Kent, 


Wessex 
Wessex 
Wessex 


## 85 Athelwulf and Adelstan I 
Athelwulf 
## 87 Athelwulf and Adelberht III 
Adelberht III 
Athelred I 
Oswiu 


## 86 


## 88 
## 89 
## 95 


Kent, Wessex 
Kent, Wessex 
Kent, Wessex 
Kent, Wessex 
Kent, Wessex 
Mercia, Northumbria 


同样 常见 的 是 ， 王 国 的 权力 并 非 为 某 位 统治 者 专 有 ， 而 是 由 几 个 人 分 享 〈 当 一 个 强大 的 国 


王 有 好 几 个 儿子 时 特别 常见 )。 


我 们 可 以 通过 在 name 一 栏 中 寻找 逗号 或 “and” 来 发 现 这 些 


例子 。 这 一 次 ， 因 为 要 同时 寻找 两 件 事情 ， 所 以 更 简单 的 做 法 是 使 用 一 个 正则 表达 式 而 非 
固定 的 字符 串 。 在 正则 表达 式 和 R 中 ， 


在 下 例 中 ， 为 防止 输 








内容 太 多 ， 我 们 


管道 字符 | 的 含义 均 为 : 或 。 





口 、 


E 





FAIR 


name 一 列 ， 且 忽略 缺失 值 (使 用 is.na) : 


multiple_rulers <- str_detect(english_monarchsSname, ",|and") 
english_monarchs$name[multiple_rulers & !is.na(multiple_rulers)] 
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## 
## 
HH 
## 
HH 
## 
## 
## 
## 
HH 
## 
## 
## 
## 
HH 
## 
HH 
## 
## 
## 
## 
HH 
## 
## 
## 
## 
HH 
## 
HH 
## 
## 
## 
HH 


如 有 果 想 把 name 一 列 拆 分 ， 使 它 列 出 每 位 统治 者 的 名 字 ， 可 以 使 月 


Sigeber 
Hun, Be 
Offa an 
Cenwulf 
Sighere 
Sigehea 
Eorcenb 
Oswine, 
Swefbeh 


[10] Adelberht II, Alfric and Eadberht I 


Adelber 
Eadberh 
Heaberh 
Ecgbehr 
Ecgbehr 
Ecgbehr 
Athelwu 
Athelwu 
[19] Penda a 
[20] Penda a 
Athelre 
Athelfle 


[23] Alfwynn, Second Lady of the Mercians 


Halfdan 
Nodhelm 
Nodhelm 
Nodhelm 
Nodhelm 
Alfwald 





Cenwalh 
211 Levels: 


ht and Ecgric 

onna and Alberht 

d Ecgfrith 

and Cynehelm 

and Sebbi 

rd and Swaefred 

erht and Eormenred 
Swefbehrt, Swefheard 
rt, Swefheard, Wihtred 


ht II and Eardwulf 

t II, Eanmund and Sigered 
t and Ecgbehrt II 

t and Athelwulf 

t and Athelwulf 

t and Athelwulf 

lf and Adelstan I 

lf and Adelberht III 

nd Eowa 

nd Peada 

d, Lord of the Mercians 
d, Lady of the Mercians 


and Eowils 

and Watt 

and Bryni 

and Osric 

and Adelstan 

» Oslac and Osmund 


Alfwald, Ealdwulf, Oslac and Osmund 
Alfwald, Ealdwulf, Oslac, Osmund and Oswald 


and Seaxburh 


Adda Adelbehrt Adelberht I ... 


Wulfhere 





H str_split (或 用 R 基本 


包 中 的 strsptlit， 作 用 基本 一 样 )。str_split 接受 一 个 向 量 作为 输入 参数 ， 且 将 返回 一 个 


列表 ， 这 是 











因为 每 个 输入 的 字符 串 可 以 被 分 成 长 度 不 同 的 向 量 。 如 果 每 个 输入 须 返 回 相 同 


的 分 割 数 ， 则 可 使 用 str_spltit_fixed， 它 将 返回 一 个 矩阵 。 以 下 输出 显示 了 多 位 统治 者 中 
的 前 儿 个 例子 : 


individual_rulers <- str_split(english_monarchs$name, ", | and ") 
head(individual_rulers[sapply(individual_rulers, Length) > 1]) 


## 
HH 
## 
## 
## 
## 
## 
HH 
## 


[[1]] 
[1] "Sigeber 


[[2]] 
[1] "Hun" 


[[3]] 
[1] "offa" 


ht" "Ecgric" 


"Beonna" "Alberht" 


"Ecgfrith" 
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## [[4]] 
## [1] "Coenwulf" "Cynehelm" 


## [[5]] 
## [1] "Sighere" "Sebbi" 


## [[6]] 
## [1] "Sigeheard" "Swaefred" 


EHE, UPB te -— 撒克逊 (Anglo-Saxon) 统治 者 的 名 字 中 有 古 英 语 字符 ， “æ” 
(“ash”), CRK “ae” w “O” 和 “pb”( 分 别 为 “eth” 和 “thormn，)， 它 们 都 代表 “th.” 
在 很 多 情况 下 ， 每 个 统治 者 名 字 的 拼写 并 不 一 致 ， 但 要 识别 某 位 统治 者 ， ae 
须 固定 下 来 。 


让 我 们 来 看 看 有 多 少 个 th, ð 和 bb 用 来 组 成 字母 “th.”。 我 们 可 以 用 str_count 计算 出 它们 
在 每 个 名 称 中 的 出 现 次 数 ， 然 后 用 sum 来 对 所 有 乡 Red ints 总 的 出 现 次 数 : 























th c("th", wga "b") 
sapply( # 也 可 以 使 用 plyr 中 的 Laply 
th, 
function(th) 


sum(str_count(english_monarchs$name, th)) 


} 
) 


## th ð b 
## 74 26 7 
在 这 个 数据 集 开 始 看 起 来 像 和 常见 的 现代 标准 拉丁 拼写 法 。 如 果 要 赫 换 掉 eth 和 thorn 等 字符 
串 ， 可 使 用 str_replace_all。( 有 一 个 稍微 不 同 的 函数 str_replace， 它 仅仅 琳 换 掉 第 一 个 
匹配 的 字符 串 。) 把 eth 和 thormn 置 于 在 方 括号 中 的 意思 是 : 符合 下 列 任 一 字符 : 























english_monarchs$new_name <- str_replace_all(english_monarchs$name, "[dp]", "th") 


这 种 技巧 对 于 清理 一 个 类 别 变量 的 水 平 值 非常 有 有 用。 例如， 性别 在 英语 中 可 通过 多 种 方式 
指定 ， 但 我 们 通常 只 需要 其 中 的 两 个 。 在 下 例 中 ， 我 们 将 匹配 以 “m” 开 头 的 (^)、 后 玫 
跟着 一 个 可 选 的 (?)“ale”、 且 以 字符 串 ($) 为 结尾 

















gender <- c( 
"MALE", "Male", "male", "M", "FEMALE", 
"Female", "female", "f", NA 
) 
clean_gender <- str_replace( 
gender, 
ignore.case("*m(ale)?$"), 
"Male" 
) 


(clean_gender <- str_replace( 
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clean_gender, 


ignore.case("4f(emale)?$"), " 


Female" 


)) 


## [1] "Male" "Male" "Male" "Male" "Female" "Female" "Female" "Female" 


## [9] NA 


13.3 操作 数据 框 


许多 数据 清理 的 任务 涉及 数据 框 的 操作 ， 要 把 它们 转换 成 相应 所 需 的 形式 。 我 们 已 知 可 用 
索引 和 subset 国 数 来 选择 数据 框 的 子 集 。 其 他 常见 任务 ， 包 括 通过 添加 其 他 列 〈 或 替换 现 


有 列 ) 来 扩充 数据 框 、 处 到 








缺失 值 ， 以 及 在 数据 框 的 宽 和 长 格式 之 间 的 转换 。 以 下 有 几 个 


国 数 可 用 于 在 数据 框 中 添加 或 替换 列 。 


13.3.1 添加 和 替换 列 
假设 要 为 english_monarchs 数据 框 添 加 一 列 来 表示 统治 者 执政 了 多 少年 ， 我 们 可 以 使 用 标 


准 的 赋值 操作 符 来 完成 : 


english_monarchs$length.of.reign.years <- 
english_monarchs$end.of.reign - english_monarchs$Sstart.of.reign 


这 是 可 行 的， 但 要 反复 输入 数据 框 变量 名 无 论 是 对 于 输入 或 阅读 来 说 都 太 麻烦 。with 函数 
可 以 通过 直接 调用 变量 使 之 简化 。 它 接受 一 个 数据 框 *” 和 要 计算 的 表达 式 作为 输入 参数 : 





english_monarchs$length.of.reign.years <- with( 


english_monarchs, 


end.of.reign - start.of.reign 


) 


within 函数 的 工作 方式 类 似 ， 但 它 会 返回 整个 数据 框 : 





english_monarchs <- within( 


english_monarchs, 


{ 


length.of.reign.years <- end.of.reign - start.of.reign 


} 
) 


在 此 例 中 within 还 需 输 入 更 多 。 当 要 更 改 多 个 列 时 ， 它 更 有 用 : 


english_monarchs <- within( 


english_monarchs, 


{ 





TE 2: 或 环境 。 
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length.of.reign.years <- end.of.reign - start.of.reign 
reign.was.more.than.30.years <- length.of.reign.years > 30 
} 
) 


也 就 是 说， 如 果 你 正在 创建 或 改变 其 一 列 ， 就 使 用 with: 如果 你 想 一 次 操作 多 个 列 ， 则 用 


within, 



































在 plyr 包 中 的 mutate 函数 采取 了 另 一 种 方法 ， 它 接受 新 的 和 更 改 的 列 ， 并 把 它们 当成 
“名 称 - 值 ”对 ，: 

















engLish_monarchs <- mutate( 
english_monarchs, 
Length.of.reign.years = end.of.reign - start.of.reign, 
reign.was.more.than.30.years = length.of.reign.years > 30 


) 


13.3.2 ”处 理 缺 失 值 

在 第 12 章 ， 马 鹿 数 据 集 显 示 了 用 四 种 不 同方 式 测 量 得 出 每 头 鹿 的 颅 容量 。 对 其 中 某 些 而 
EPPA HORE, Ave A Ville MRI ARRAY BY VE, RR LE TA ARAL. 
complete.cases 国 数 告诉 我 们 哪些 行 没 有 缺失 值 : 














data("deer_endocranial_volume", package = "Learningr") 
has_all_measurements <- complete.cases(deer_endocranial_volume) 
deer_endocranial_voLlume[has_all_measurements, ] 


#H SkuLLID VolCT VolBead VolLWH VolFinarelli VoLCT2 VolBead2 VolLWH2 


## 7 C120 346 335 1250 289 346 330 1264 
## 8 C25 302 295 1011 250 303 295 1009 
## 9 F7 379 360 1621 347 375 365 1647 
## 10 B12 410 400 1740 387 413 395 1728 
## 11 B17 405 395 1652 356 408 395 1639 
## 12 B18 391 370 1835 419 394 375 1825 
## 13 J7 416 405 1834 408 417 405 1876 
## 15 A4 336 330 1224 283 345 330 1192 
## 20 K2 349 355. 1239 286 354 365 1243 


捷径 为 na.omit A, “ERENCE TAT ATA RAAT *: 
na.omit(deer_endocranial_volume) 


## SkuLLID VolCT VolBead VolLWH VolFinarelli VolCT2 VolBead2 VoLLWH2 


## 7 C120 346 335 1250 289 346 330 1264 
## 8 C25 302 295 1011 250 303 295 1009 
## 9 F7 379 360 1621 347 375 365 1647 
## 10 B12 410 400 1740 387 413 395 1728 





HE 3: R 基本 包 中 的 transform 函数 是 mutate 国 数 的 早期 实现 ， 现 已 过 时 。 
注 4: na.exclude 5 na.omit 的 行为 一 样 ， 两 者 同 存 为 惯例 。 





a 
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## 11 B17 405 395. 1652 356 408 395 1639 


## 12 B18 391 370 1835 419 394 375 1825 
## 13 J7 416 405 1834 408 417 405 1876 
## 15 A4 336 330 1224 283 345 330 1192 
## 20 K2 349 355 1239 286 354 365 1243 


相反 地 ， 如 果 你 的 数据 框 中 包含 任何 缺失 值 ，na.failt 将 抛 出 一 个 错误 : 





na.fail(deer_endocranial_volume) 


这 两 个 函数 也 可 以 对 向 量 进行 缺失 值 删 除 或 者 抛 出 错误 ， 就 像 在 数据 框 中 一 样 。 














Va 





可 以 采取 统计 上 可 行 的 多 次 插 补 来 填补 缺失 值 。 这 已 超出 本 书 的 范围 ， 不 过 
人 4 、 我 们 建议 你 从 mice A mix 包 开始 研究 。 

ns 
13.3.3 ”在 宽 和 长 表格 之 间 进 行 转换 


马 鹿 数 据 集 包 含 了 以 四 种 不 同方 式 获得 的 鹿 头 骨 颅 容量 数据 。 它 的 每 一 列 包 含 了 对 某 种 类 
型 的 鹿 的 测量 结果 。 (为 简单 起 见 ， 我 们 忽略 了 重复 测量 的 列 。) 这 就 是 数据 框 的 宽 形式 : 











deer_wide <- deer_endocranial_volume[, 1:5] 


从 另 一 个 角度 看 ， 每 一 列 中 的 头骨 测量 数据 都 是 同一 类 型 的 东西 ( 即 测量 值 )， 只 是 测量 
的 方式 不 同 。 因 此 ， 另 一 种 表示 该 数据 的 方式 是 : 每 个 鹿 都 有 4 行 数据 ， 每 行 有 以 下 几 
列 : 一 列 是 和 之 前 一 样 颅骨 的 ID (所 以 每 个 值 将 被 重复 四 次 )， 一列 为 测量 值 ， 还 有 一 列 
用 于 解释 本 行 所 在 的 测量 类 型 的 因子 。 这 就 是 所 谓 的 数据 框 的 长 格式 。 


R 的 基础 包 中 reshape 的 国 数 能 用 于 宽 和 长 形式 之 间 的 转换 。 它 的 功能 非常 强大 ， 但 并 不 
大 直观 。 更 好 的 选择 是 使 用 reshape2 包 中 的 功能 。 


在 这 个 包 中 可 用 melt 函数 将 宽 形 式 转换 成 长 形式 “。 我 们 选择 skutt 作为 ID 列 (与 其 
所 有 都 被 归 为 一 次 测量 ) : 











= 


lLibrary(reshape2) 
deer_long <- melt(deer_wide, id.vars = "SkullID") 
head(deer_long) 


## SkullID variable value 
## 1 DIC44 VoLCT 389 
## 2 B11 VoLCT 389 
## 3 DIC90 VoLCT 352 
HH 4 DIC83 VoLCT 388 
## 5 DIC787 VoLCT 375 
## 6 DIC1573 VoLCT 325 





注 5: 术语 “melting” 及 其 反义词 “casting” 均 参考 自 钢铁 行业 。 
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或 者 ， 使 用 measure.vars 参数 ， 它 显示 除了 id.vars 列 之 外 的 其 他 所 有 列 。 在 这 种 情况 
下 ， 工 作 量 会 变 大 ， 但 当 有 很 多 的 ID 变量 和 极 少 测量 变量 时 ， 它 很 有 用 : 








melt(deer_wide, measure.vars = c("VoLCT", "VolBead", "VolLWH", "VoLFinarelli")) 


dcast 函数 能 把 长 转换 回 宽 形式 ， 并 将 结果 返回 为 一 个 数据 框 (相关 函数 acast 返回 一 个 
问 量 、 和 矩阵 或 数组 ) : 





deer_wide_again <- dcast(deer_long, SkullID ~ variable) 


我 们 重 构 的 数据 集 deer_wide_again 与 原来 的 deer_wide 基本 一 样 ， 除 了 它 按 Skul LID 中 的 
字母 顺序 排序 。 


























vv a, 
as 电子 表格 的 爱好 者 可 能 会 注意 到 ，acast 和 dcast 能 有 效 地 创建 数据 透视 表 。 
eS as, 


13.3.4 使 用 SQL 

sqldf 包 提 供 了 使 用 SQL 操作 数据 框 的 方式 。 一 般 情 况 下 ,标准 RR 里面 的 函数 都 比 SQL 
代码 要 更 简洁 、 可 读 性 也 更 好 。 不 过 ， 当 你 原来 的 工作 背景 是 数据 库 ， 这 个 包 能 帮 你 平 请 
过 渡 到 R: 








install.packages("sqldf") 
下 例 将 比较 标准 R 和 sqldf 版 本 的 子 集 查 询 语句 : 
library(sqldf) 
## Loading required package: DBI 
## Loading required package: gsubfn 
## Loading required package: proto 
## Loading required namespace: tcltk 
## Loading required package: chron 
## Loading required package: RSQLite 
## Loading required package: RSQLite.extfuns 
subset( 
deer_endocranial_voLlume, 
VolCT > 400 | VolCT2 > 400, 


c(VoLCT, VolCT2) 
) 
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## VolCT VoLCT2 
## 10 410 413 
## 11 405 408 
## 13 416 417 
## 16 418 NA 


query <- 
"SELECT 
VoLCT， 
VoLCT2 
FROM 
deer_endocranial_volume 
WHERE 
VolCT > 400 OR 
VoLCT2 > 400" 
sqldf (query) 


## Loading required package: tcltk 


## VolCT VolCT2 


## 1 410 413 
## 2 405 408 
## 3 416 417 
## 4 418 NA 


13.4 排序 


把 数值 数据 按 大 小 进行 排序 通常 很 有 用 ， 因 为 我 们 关心 的 值 往往 就 在 两 端 。sort 函数 按 向 
量 从 小 到 大 (或 从 大 到 小 ) 排序 “: 


x <- c(2, 32, 4, 16, 8) 
sort(x) 


## [1] 2 4 8 16 32 
sort(x, decreasing = TRUE) 


## [1] 32 16 8 4 2 


字符 串 也 可 以 排序 ， 但 其 顺序 往往 取决 于 语言 环境 。 通 常 字母 从 a 到 z 排 序 ， 但 也 有 些 
比较 奇怪 的 顺序 : 例如 在 爱沙尼亚 语 中 ,z 位 于 s 之 后 、t 之 前 。 其 他 奇怪 的 顺序 都 列 
在 ?Comparision 帮助 页 面 中 。 在 英语 或 北美 地 区 ， 你 会 看 到 这 样 的 结果 : 





























sort(c("I", "shot", "the", "city", "sheriff")) 


## [1] "city" sa "sheriff" "shot" "the" 





TE 6: 痴迷 于 排序 算法 的 高 et 出 sort 函数 默认 使 用 shellsort， 但 你 亦 可 指定 method = quick 而 使 
用 快速 排序 。 基 数 排序 也 可 用 于 因子 中 。 























order 国 数 是 sort 的 某 种 逆转 操作 。order 中 的 第 个 元 素 是 x 中 的 元 素 在 排序 之 后 最 终 将 


出 现 的 位 置 。 这 种 说 法 有 点 令 人 头 时 ， 你 需要 了 解 的 是 : x[order(x)] 将 返回 与 
同 的 结果 : 

order (x) 

## [1] 13542 

x[order (x)] 

## [1] 2 4 8 16 32 

identical(sort(x), x[order(x)]) 


## [1] TRUE 








sort(x) 相 


order 在 对 数据 框 排序 时 非常 有 用 ， 因 为 数据 框 不 能 直接 使 用 sort。 例 如 ， 使 english_ 








monarchs 数据 框 按 统治 的 年 份 开始 排序 ， 可 用 : 


year_order <- order(english_monarchs$start.of.reign) 
english_monarchs[year_order, ] 


plyr 包 中 的 arrange 函数 提供 了 一 个 替代 函数 ， 它 只 用 一 行 就 能 对 数据 框 排序 : 


arrange(english_monarchs, start.of.reign) 

















方法 : 





rank 国 数 为 数据 集中 的 每 个 元 素 给 出 了 排名 ， 提 供 了 排名 情况 相等 时 的 几 种 处 至 
(x <- sample(3, 7, replace = TRUE)) 
## [1] 1213332 
rank(x) 
## [1] 1.5 3.5 1.5 6.0 6.0 6.0 3.5 
rank(x, ties.method = "first") 


##[1]1325674 


13.5 ”还 数 式 编程 


如 LISP 和 Haskell 的 函数 式 编程 语言 的 概念 已 被 引入 到 R 中 。 你 无 须 了 解 任何 函数 式 编 程 





就 可 以 使 用 它们 '。 你 只 需要 知道 ， 这 些 功能 在 数据 操作 时 很 有 用 。 





Negate 函数 接受 一 个 谓词 (predicate， 即 一 个 返回 逻辑 向 量 的 函数 )， 并 返回 另 一 个 刚好 相 














注 7: 如 有 兴趣 可 以 参考 wordIQ.com 上 的 一 个 很 好 的 介绍 。 
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反 的 谓词 *。 当 输入 是 FLASE 时 ， 它 将 返回 TRUE; 输入 是 FALSE， 它 返回 TRUE: 
ct2 <- deer_endocranial_volume$VolCT2 # 为 了 方便 输入 
isnt.na <- Negate(is.na) 


identical(isnt.na(ct2), !is.na(ct2)) 


## [1] TRUE 


Filter 可 以 接受 两 个 参数 : 第 一 个 参数 为 返回 一 个 逻辑 向 量 的 函数 ， 其 次 为 一 个 输入 向 
量 ， 它 只 有 在 函数 返回 为 TRUE IT eae 





Filter(isnt.na, ct2) 


## [1] 346 303 375 413 408 394 417 345 354 


Position 国 数 的 行为 有 点 像 第 4.2 节 的 which 国 数 。 它 将 返回 第 一 个 把 谓词 应 用 于 矢量 上 
而 返回 TRUE 的 索引 下 标 : 





Position(isnt.na, ct2) 
## [1] 7 


Find 与 Position 类 似 ， 但 它 返 回 的 是 第 一 个 值 而 不 是 第 一 个 索引 : 





Find(isnt.na, ct2) 
## [1] 346 


Map 函数 将 一 个 函数 应 用 于 输入 参数 中 的 每 个 元 素 上 。 它 只 是 使 用 了 SIMPLIFY = FALSE 选 

项 的 mapply 函数 的 封装 函数 。 在 下 例 中 ， 我 们 将 使 用 以 上 各 种 方法 取得 马 鹿 数 据 集中 每 头 
鹿 测 量 的 平均 值 。 首 先 ， 我 们 需要 一 个 用 于 传递 给 map 的 函数 ， 它 能 查找 出 每 一 个 鹿 头 骨 
的 体积 











get_volume <- function(ct, bead, lwh, finarelli, ct2, bead2, lwh2) 


t 如 果 有 第 二 次 测量 ， 取 平均 值 
if(!is.na(ct2)) 


ct <- (ct + ct2) / 2 
bead <- (bead + bead2) / 2 
lwh <- (lwh + lwh2) / 2 


} 
# 把 wh 除 以 4， 使 它 与 其 他 测量 结果 看 齐 
c(ct = ct, bead = bead，Lwh.4 = Lwh / 4 














, finarelli = finarelli) 


} 








TE 8: 从 技术 上 讲 ， 谓 词 predicate 是 一 个 返回 单个 逻辑 值 的 函数 ， 我 们 在 这 里 小 用 了 这 个 词 ， 尽 个 
词 的 矢量 版 本 还 没有 被 创造 出 来 。 我 比较 喜欢 施 瓦 注 格 式 的 predicator， 但 在 它 流行 之 前 还 是 沿用 
predicate IE, 

















然后 ，Map 的 行为 就 和 mappty 一 样 : 


数 会 逐个 传递 给 它 : 


measurements_by_deer <- with( 


deer_endocranial_volume, 


Map( 


) 
) 


head(measurements_by_deer ) 


## 
## 
## 
#H 
#H 
## 
## 
## 
#H 
#H 
#H 
## 
## 
## 
## 
## 
#H 
## 
## 
## 
## 
#H 
#H 


get_volume, 


VolCT, 
VolBead, 
VolLWH, 


VolFinarelli, 


VolCT2, 


VolBead2, 


VoLLWH2 


[[1]] 
ct 
389 


[[2]] 
ct 
389.0 


[[3]] 
ct 
352.0 


[[4]] 
ct 
388.0 


[[5]] 
ct 
375.0 


[[6]] 
ct 
325.0 


bead 
375 


bead 
370.0 


bead 
345.0 


bead 
370.0 


bead 
355.0 


bead 
320.0 


它 接收 一 个 函数 作为 第 一 个 参数 ， 然 后 其 他 所 有 的 参 


Lwh.4 finarelli 
371 


twh. 
430. 


twh 


373. 


twh. 
420. 


twh. 
364. 


twh. 
340. 


4 
5 


4 
8 


337 


finarelli 
377.0 


finarelli 
328.0 


finarelli 
377.0 


finarelli 
328.0 


finarelli 
291.0 


Reduce 函数 能 把 一 个 二 元 函数 转变 为 一 个 接受 多 个 输入 的 国 数 。 例 如 ，+ 运算 符 能 计算 两 
个 数字 的 总 和 ， 但 sum 函数 能 计算 出 多 个 输入 的 总 和 。sum(a，b，c，d，e) (大 致 ) 相当 


于 Reduce("+"，List(a，b，c，d，e))。 


我 们 可 以 定义 一 个 简单 的 二 元 函数 来 (并 行 地 ) 计算 出 两 个 输入 值 中 的 最 大 值 : 


pmax2 <- function(x, y) ifelse(x >= y, x, y) 


如 果 对 这 个 函数 进行 reduce HE, IBA E RERE SE — 3 
pmax 国 数 一 样 ) : 





列 的 输入 (正如 在 R 基础 包 中 的 
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Reduce(pmax2, measurements_by_deer) 


#H ct bead lwh.4 finarelli 
## 418.00 405.00 463.75 419.00 


Reduce 的 一 个 限制 条 件 是 ， 它 将 对 其 输入 成 对 地 反复 调用 二 元 函数 ， 也 就 是 说 : 
Reduce("+", list(a, b, c, d, e)) 


看 的 用 法 也 是 一 样 的 : 





= 














((((a + b) + c) +d) + e) 
这 意味 着 ， 它 不 能 用 于 例如 求 平均 值 这 样 的 计算 ， 因 为 : 


mean(mean(mean(mean(a, b), c), d), e) != mean(a, b, c, d, e) 


13.6 ”小结 


e stringr 包 对 操作 字符 串 非 常 有 用 。 

。 数据 框 的 列 可 以 被 相 加 、 相 减 或 操作 。 
。 数据 框 能 以 宽 或 长 的 形式 存在 。 
。 可 以 对 向 量 进行 排序 、 排 名 和 order。 

© RR 有 一 些 函 数 式 编程 的 能 力 ， 如 Map 和 Reduce. 


13.7 ”知识 测试 问题 
。 问题 13-1 
如 何 计算 单词 “thou” 出 现在 莎士比亚 的 《暴风 雨 》 中 出 现 的 次 数 ? 











。 问题 13-2 

想 一 想 如 何 能 为 数据 框 添加 列 ， 指 出 尽 可 能 多 的 函数 名 。 
。 问题 13-3 

“melting” 相 反 的 用 法 是 什么 ? 





。 问题 13-4 
如 何 对 数据 框 按 列 重新 排序 ? 











。 问题 13-5 
如 何 找到 向 量 中 的 第 一 个 正 数 ? 
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13.8 知识 测试 : 练习 


。 练习 13-1 

从 learningr 包 中 加 载 hafu 数据 集 。 在 Father 和 Mother 列 中 ， 有 一 些 值 在 国家 名 后 面 
带 有 问号 ， 表明 作者 不 确定 这 些 父母 的 国籍 。 在 fafu 数据 框 中 创建 两 个 新 的 列 ， 分 别 
表示 是 否 在 Father 或 Mother 列 中 带 有 问号 。 
从 Father 和 Mother 列 中 删除 那些 问号 。[10] 








。 练习 13-2 
hafu 数据 集中 每 个 父母 的 国籍 都 有 单独 的 列 。 把 数据 框 从 宽 形 转换 为 长 形 ， 使 一 列 为 
父母 的 国籍 ， 一 列 为 国籍 所 对 应 的 父母 是 谁 。[5] 








。 练习 13-3 
写 一 个 函数 ， 它 能 返回 向 量 中 10 个 最 常见 的 值 及 其 次 数 。 尝 试 把 这 个 函数 应 用 于 hafu 
数据 集 的 某 些 列 中 。[10] 
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探索 和 可 视 化 








当 导 入 数据 、 完 成 清理 工作 ， 并 把 它们 转换 成 某 种 合适 的 形式 后 ， 你 会 同 “ 所 有 这 些 都 意 
味 着 什么 ?” 你 可 以 使 用 的 两 个 主要 工具 是 汇总 统计 和 绘图 ( 建 模 是 后 话 ， 因 为 你 首先 需 
要 理解 数据 ， 然 后 才能 对 它们 正确 地 建 模 )。 对 于 计算 统计 任务 来 说 ，R 有 一 系列 非常 全 
面 的 函数 以 及 三 种 不 同 的 绘图 系统 可 供 选择 。 


14.1 本 章 目 标 


阅读 完 本 章 后 ， 你 会 了 解 以 下 内 容 : 





























。 如 何 对 一 定 范 围 内 的 数值 数据 进行 汇总 统计 计算 ， 
。 如 何 使 用 R 的 三 种 绘图 系统 绘制 标准 图 形 ; 
。 如 何 简单 地 操作 这 些 绘图 方法 。 


14.2 ”汇总 统计 
我 们 已 经 了 解 了 很 多 用 于 计算 汇总 统计 的 函数 ， 本 节 算 是 一 个 小 结 。 大 多 数 函 数 的 命名 及 
其 用 法 都 显而易见 ， 例 如 ，mean 和 median 国 数 的 计算 任务 和 它们 的 名 字 相 同 。 没 有 求 模 


的 函数 ， 但 可 以 从 table 函数 的 结果 计算 出 来 ， 它 给 出 了 每 个 元 素 的 计数 结果 。( 如 果 你 了 
解 得 还 不 够 ， 现 在 再 去 做 一 下 练习 13-3 吧 。) 


























在 下 例 中 ，obama_vs_mccain 数据 集 包含 在 2008 年 美国 总 统 选 举 中 投票 给 奥巴马 和 麦 凯 因 
的 人 口 组 成 数据 ， 以 及 一 些 相 关 的 人 口 统计 信息 : 





190 


data(obama_vs_mccain, package = "learningr") 

obama <- obama_vs_mccain$Obama 

mean(obama) 

## [1] 51.29 

median(obama) 

## [1] 51.38 
table 国 数 对 于 Obama 变量 (或 其 他 的 数值 变量 ) 来 说 意义 不 是 很 大 ， 因 为 每 个 值 都 是 唯 
一 的 。 通 过 与 cut 相 结合 ， 我 们 可 以 看 见 有 多 少 值 落 在 了 不 同 的 分 组 中 : 


table(cut(obama, seq.int(0, 100, 10))) 





i 





Ht 

## (0,10] (10,20] (20,30] (30,40] (40,50] (50,60] (60,70] (70,80] 
Ht 0 0 0 8 16 16 9 1 
## (80,90] (90,100] 

Ht 0 1 


var 和 sd 分 别 计算 方差 和 标准 差 。 用 于 计算 平均 绝对 偏差 的 mad 函数 则 比较 少见 : 
var (obama) 
## [1] 123.1 
sd(obama) 
## [1] 11.09 
mad (obama) 
## [1] 11.49 
有 几 个 函数 可 用 于 获取 数值 数据 的 极 值 。 例 如 ， 最 常见 的 min 和 max， 它 们 能 分 别 给 出 输 


入 的 最 小 值 和 最 大 值 。pmin 和 pmax (“并行 ” 版 本 ) 则 能 计算 相同 长 度 的 若干 向 量 中 在 相 
同位 置 的 最 小 和 最 大 值 。 而 range 函数 只 需 一 行 函 数 就 能 给 出 最 小 和 最 大 值 : 











min(obama) 
# [1] 32.54 
with(obama_vs_mccain, pmin(Obama, McCain) ) 


## [1] 38.74 37.89 44.91 38.86 36.91 44.71 38.22 6.53 36.93 48.10 46.90 
## [12] 26.58 35.91 36.74 48.82 44.39 41.55 41.15 39.93 40.38 36.47 35.99 
## [23] 40.89 43.82 43.00 49.23 47.11 41.60 42.65 44.52 41.61 41.78 36.03 
## [34] 49.38 44.50 46.80 34.35 40.40 44.15 35.06 44.90 44.75 41.79 43.63 
## [45] 34.22 30.45 46.33 40.26 42.51 42.31 32.54 


range(obama) 


## [1] 32.54 92.46 
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cumin 和 cummax 能 分 别 计算 向 量 中 的 最 小 值 和 最 大 值 。 同 样 地 ，cumsum 和 cumprod 能 计算 
数据 中 的 累加 与 累 乘 。 当 输入 的 数据 是 有 序 的 ， 这 些 函 数 会 非常 有 用 : 


cummin(obama) 


## [1] 38.74 37.89 37.89 37.89 37.89 37.89 37.89 37.89 37.89 37.89 37.89 
## [12] 37.89 35.91 35.91 35.91 35.91 35.91 35.91 35.91 35.91 35.91 35.91 
## [23] 35.91 35.91 35.91 35.91 35.91 35.91 35.91 35.91 35.91 35.91 35.91 
## [34] 35.91 35.91 35.91 34.35 34.35 34.35 34.35 34.35 34.35 34.35 34.35 
## [45] 34.22 34.22 34.22 34.22 34.22 34.22 32.54 


cumsum(obama) 


## [1] 38.74 76.63 121.54 160.40 221.34 275.00 335.59 428.05 
## [9] 489.96 540.87 587.77 659.62 695.53 757.38 807.23 861.16 
## [17] 902.71 943.86 983.79 1041.50 1103.42 1165.22 1222.55 1276.61 
## [25] 1319.61 1368.84 1415.95 1457.55 1512.70 1566.83 1623.97 1680.88 
## [33] 1743.76 1793.46 1837.96 1889.34 1923.69 1980.44 2034.91 2097.77 
## [41] 2142.67 2187.42 2229.21 2272.84 2307.06 2374.52 2427.15 2484.49 
## [49] 2527.00 2583.22 2615.76 





cumprod(obama) 

## [1] 3.874e+01 1.468e+03 6.592e+04 2.562e+06 1.561e+08 8.377e+09 5.076e+11 
## [8] 4.693e+13 2.905e+15 1.479e+17 6.937e+18 4.984e+20 1.790e+22 1.107e+24 
## [15] 5.519e+25 2.976e+27 1.237e+29 5.089e+30 2.032e+32 1.173e+34 7.261e+35 
## [22] 4.487e+37 2.572e+39 1.391e+41 5.980e+42 2.944e+44 1.387e+46 5.769e+47 
## [29] 3.182e+49 1.722e+51 9.841e+52 5.601e+54 3.522e+56 1.750e+58 7.789e+59 
## [36] 4.002e+61 1.375e+63 7.801e+64 4.249e+66 2.671e+68 1.199e+70 5.367e+71 
## [43] 2.243e+73 9.785e+74 3.349e+76 2.259e+78 1.189e+80 6.817e+81 2.898e+83 
## [50] 1.629e+85 5.302e+86 


可 能 如 你 所 料 ，quantile 函数 能 够 计算 分 位 数 (median, min 和 max 是 特殊 情况 )。 它 默认 
计算 中 位 数 、 最 小 值 、 最 大 值 和 上 下 四 分 位 数 ， 而 且 它 令 人 惊叹 地 进行 了 过 度 设计 ， 竞 然 
提供 了 9 种 不 同 的 算法 : 

















quantile(obama) 


## 0% 25% 50% 75% 100% 
## 32.54 42.75 51.38 57.34 92.46 


quantile(obama, type = 5) # 重 现 sas 的 结果 


## 0% 25% 50% 75% 100% 
## 32.54 42.63 51.38 57.34 92.46 


quantile(obama, c(0.9, 0.95, 0.99)) 


HH 90% 95% 99% 
## 61.92 65.17 82.16 


IQR 封装 了 quantile 函数 ， 它 能 直接 计算 出 四 分 位 差 (第 75 百 分 位 减 去 第 25 个 百 分 位 ) : 





IQR(obama) 


## [1] 14.58 








fivenum 对 quantile 作 了 大 量 简化 而 且 运行 更 快 。 你 只 能 使 用 一 种 算法 ， 并 且 只 能 计算 日 
默认 的 位 数 。 它 很 适用 于 对 速度 要 求 很 高 的 那些 场景 


Co 








fivenum(obama) 
## [1] 32.54 42.75 51.38 57.34 92.46 


有 些 快 捷 方 式 能 够 一 次 完成 多 项 统计 计算 。 例 如 ， 你 已 见 过 的 能 接受 向 量 或 数据 框 的 
summary EARL: 





summary(obama_vs_mccain) 


Ht State Region Obama McCain 

## Alabama 1 IV :8 Min. 232.5 Min. : 6.53 

## Alaska 1 I : 6 1st Qu.:42.8 1st Qu. :40.39 

## Arizona 1 -ER : 6 Median :51.4 Median :46.80 

## Arkansas 1 V : 6 Mean 251.3 Mean 247.00 

## California: 1 VIII : 6 3rd Qu.:57.3 3rd Qu.:55.88 

## Colorado 1 VI $5 Max. 292.5 Max. 765.65 

## (Other) :45  (Other):14 

## Turnout Unemployment Income Population 

## Min. 750.8 Min. 23.40 Min. 219534 Min. : 563626 

## 1st Qu.:61.0 ist Qu.:5.05 ist Qu. :23501 1st Qu.: 1702662 

## Median :64.9 Median :5.90 Median :25203 Median : 4350606 

## Mean :64.1 Mean :6.01 Mean 726580 Mean : 6074128 

## 3rd Qu.:68.0 3rd Qu.:7.25 3rd Qu.:28978 3rd Qu.: 6656506 

## Max. :78.0 Max. 29.40 Max. 740846 Max. 237341989 

## NA'S :4 

## Catholic Protestant Other Non.religious Black 

## Min. : 6.0 Min. 226.0 Min. 70.00 Min. 7 5 Min. : 0.4 
## 1st Qu.:12.0 1st Qu.:46.0 1st Qu.:2.00 dst Qu.:12 dst Qu.: 3.1 
## Median :21.0 Median :54.0 Median :3.00 Median :15 Median : 7.4 
## Mean :21.7 Mean 753.8 Mean 33.29 Mean :16 Mean $11.1 
## 3rd Qu.:29.0 3rd Qu.:62.0 3rd Qu.:4.00 3rd Qu.:19 3rd Qu.:15.2 
## Max. 746.0 Max. 780.0 Max. 78.00 Max. 234 Max. 750.7 
## NA's i2 NA's :2 NA's :2 NA's 2 

#H Latino Urbanization 

## Min. i12 Min. : 1 

## 1st Qu.: 4.3 ist Qu.: 46 

## Median : 8.2 Median : 101 

## Mean :10.3 Mean : 386 

## 3rd Qu.:12.1 3rd Qu.: 221 

## Max. :46.3 Max. 29856 

## 





cor 国 数 能 计算 数值 向 量 之 间 的 相关 性 。 你 可 能 会 想到 ， 投 票 给 奥巴马 和 投票 给 麦 凯 恩 的 
选民 之 间 应 该 会 有 一 个 近乎 完美 的 负 相关 关系 (其 中 的 瑕 症 是 由 独立 候选 人 的 选民 造成 
的 )。cancor 国 数 (典型 相关 “canonical correlation” 的 简称 ) 能 提供 更 多 的 细节 ， 而 cov 
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国 数 能 计算 协 方差 ; 
with(obama_vs_mccain, cor(Obama, McCain)) 
## [1] -0.9981 
with(obama_vs_mccain, cancor(Obama, McCain) ) 


## Scor 
## [1] 0.9981 


## Sxcoef 

HH [,1] 

## [1,] 0.01275 

## Sycoef 

HH [,1] 
## [1,] -0.01287 


## Sxcenter 
## [1] 51.29 


## Sycenter 
## [1] 47 


with(obama_vs_mccain, cov(Obama, McCain)) 


## [1] -121.7 


14.3 三 种 绘图 系统 

R 在 其 生命 周期 中 已 经 累计 开发 了 三 种 不 同 的 图 形 系统 。base 图 形 是 最 古老 的 系统 ， 在 
的 存在 初期 它 就 已 经 存在 了 。base 图 形 很 容易 上 手 ， 不 过 它们 需要 大 量 的 修改 甚至 一 些 魔 
法 咒语 才能 变 得 更 完美 ， 而 且 它 很 难 扩展 到 新 的 图 表 类 型 中 。 




















grid 图 形 系统 的 开发 时 在 修正 base 中 的 一 些 限制 而 使 绘图 更 加 灵活 。grid RIF MERE 
时 涉及 系统 底层 ， 可 以 具体 指定 在 哪里 画 每 个 点 、 线 或 矩形 。 虽 然 这 听 起 来 不 错 ， 但 当 我 
们 想 画 散 点 图 时 ， 没 有 人 想 每 次 都 花 大 量 的 时 间 写 几 百 行 代码 来 实现 。 























第 二 个 图 形 系 统 lattice 建立 在 grid 系统 之 上 ， 它 为 所 有 常见 的 图 表 类 型 提供 了 高 级 函 
数 。 它 有 两 个 突出 的 特点 是 base 图 形 系统 所 不 具备 的 。 首 先 ， 每 个 绘图 的 结果 被 能 保存 
到 一 个 变量 中 ， 而 不 仅仅 是 绘制 在 屏幕 上 。 这 意味 着 你 可 以 先 画 一 些 图 形 ， 再 对 其 进行 编 
辑 ， 然 后 再 把 它 画 出 来 ;这样 会 更 容易 画 出 那些 相关 的 图 形 ， 而 且 图 形 可 以 保存 在 会 话 
(session) 之 间 。 第 二 大 特点 是 ， 可 在 一 个 格子 中 包含 多 个 面板 ， 因 此 你 能 把 数据 分 成 不 















































注 1: 它 有 好 几 种 术语 名 称 。Edward Tufte 在 Envisioning Information 中 称 之 为 “small multiples”， 贝 尔 实验 室 
的 Bill Cleveland 和 Rick Becker 为 它 杜 所 了 “trellising” 一 词 ，Deepayan Sarkar 在 lattice 包 中 为 了 避 
免 使 用 以 上 的 名 称 , 称 之 为 “latticing”, 而 Leland Wilkingson 把 它 称 为 “faceting”(ggplot2 中 的 术语 )。 











同 的 类 别 并 比较 各 组 之 间 的 差异 。 这 就 解决 了 我 们 在 第 9 章 讨论 的 拆 分 一 应 用 一 合并 所 对 
应 的 绘图 问题 。 


同样 也 是 建立 在 grid 系统 之 上 的 ggplot2 系统 是 三 个 图 形 系 统 中 最 新 的 。gg 代表 : 
grammar of graphics (制图 语法 ) “， 其 目标 在 于 把 图 形 分 解 成 不 同 的 组 块 。 其 结果 就 是 ， 
geplot 的 代码 看 起 来 有 点 像 是 用 英文 描述 你 在 图 表 中 做 什么 。 


令 人 遗憾 的 是 ， 这 三 个 系统 几乎 互 不 兼容 (也 有 一 些 方法 能 把 base 和 grid 系统 组 合 起 来 ， 
然而 万 不 得 已 最 好 不 要 使 用 它 )。 好 消息 是 ， 你 几乎 可 以 使 用 ggplot2 做 任何 事情 ， 所 以 没 
有 必要 对 所 有 三 个 系统 都 学 习 一 壳 。 但 在 极 少 的 某 些 场 景 下 ，ggplot2 不 太 适 用 一 一 与 其 他 
图 形 系 统 相 比 它 需要 更 多 的 计算 ， 因 此 ， 如 果 想 快速 和 粗略 地 绘制 非常 大 的 数据 集 ， 使 用 
其 他 系统 会 更 方便 。 此 外 ， 许 多 图 形 软 件 包 是 基于 另外 两 个 系统 的 ， 所 以 如 果 想 使 用 那些 
包 ， 就 需要 对 base BR lattice 系统 稍 作 了 解 。 


下 例 展 示 了 所 有 的 三 个 系统 。 如 果 时 间 紧 迫 ， 你 可 以 仅 需 阅读 ggplot2 部 分 。 由 于 篇 幅 的 
限制 ， 本 章 只 能 浅 尝 加 止 而 不 作 这 入 探讨 。 幸 好 ， 关 于 R 的 图 形 绘制 ， 有 三 本 非常 优秀 和 
通俗 易 懂 的 书 : R Graphics, ggplot2 和 Lattice， 其 作者 分 别 是 grid, ggplot2 和 Lattice 
系统 的 创作 者 ”。 


144 Maw 
也 许 在 所 有 图 形 中 最 常见 就 是 散 点 图 ， 它 用 于 研究 两 个 连续 变量 之 间 的 关系 。obana_vs_ 
mccain 数据 集中 有 很 多 可 比较 的 数值 变量 ， 不 过 我 们 先 考虑 这 个 问题 :“ 选 民 的 收入 是 否 


会 影响 投票 率 ?” 



















































































14.4.1 第 一 种 方法 : base 绘 图 法 

base 中 用 于 绘制 散 点 图 的 函数 就 是 简单 的 plot。 最 近 流 行 的 编码 风格 最 佳 实践 就 是 把 所 有 
你 想 要 用 于 绘图 的 变量 置 于 一 个 (或 数 个 ) 数据 框 中 ， 而 不 是 把 它们 分 置 于 几 个 单独 的 向 
量 中 。 不 过 遗憾 的 是 ，ptot 比 这 种 想法 出 现 得 早 +， 所 以 我 们 必须 把 它 包 括 在 with 的 函数 
调用 中 来 访问 列 。 


尽管 plot 会 简单 地 忽略 缺失 值 ， 但 是 为 了 代码 的 整洁 ， 删 除 那 些 没 有 Turnout 值 的 行 吧 : 

















obama_vs_mccain <- obama_vs_mccain[!is.na(obama_vs_mccain$Turnout), ] 





TE 2: 此 概念 由 Leland Wilkinson 在 同名 书 中 提出 。 这 本 书 很 不 错 ， 但 由 于 到 处 都 是 公式 ， 不 适合 床上 阅读 。 
注 3: 绘图 方面 的 书 的 好 处 是 : 即使 你 不 太 有 兴趣 ， 快 速 翻阅 这 些 书 也 挺 赏 心 悦 目 。 
注 4: predate 这 里 指 的 是 “出 现 得 早 ”， 而 不 是 “捕获 并 吃 掉 ”。 
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然后 ， 我 们 就 可 以 创建 一 个 简单 的 散 点 图 ， 如 图 14-1 所 示 。 


with(obama_vs_mccain, plot(Income, Turnout) ) 
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14-1: 使 用 base 图 形 系统 画 的 简单 散 点 图 


plot 有 很 多 参数 可 以 用 于 自 定义 输出 格式 ， 其 中 一 些 比 其 他 的 更 直观 。col 能 改变 点 的 颜 
色 。 它 可 以 接受 任何 通过 colors 返回 的 已 命名 的 颜色 ， 或 者 像 "#1234556" 的 HTML 风格 
的 十 六 进 制 值 。 你 可 使 用 pch (Bll plot character 绘图 字符 的 缩写 ) 来 改变 点 的 形状 `。 轿 
14-2 显示 了 更 新 后 的 散 点 图 ， 它 把 颜色 变 成 紫色 ， 并 使 用 点 状 来 填充 圈 点 。 



































with(obama_vs_mccain, plot(Income, Turnout, col = "violet", pch = 20)) 





TE 5: 阅读 ?points 的 帮助 页 面 ， 然 后 试 试 pot(1:25，pch = 1:25, bg = "blue") 来 看 看 不 同 的 形状 。 
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B 14-2: 使 用 base 图 形 系统 设置 颜色 和 点 的 形状 


可 通过 log 参数 来 设置 对 数 坐标 。log = "x" 表示 使 用 x 轴 为 对 数 坐 标 ，log = "y" 表示 使 





H y 轴 为 对 数 坐标 ， 而 log = "xy" 则 表示 同时 使 用 x 和 y 轴 作 为 对 数 坐 标 。 
14-4 显示 了 对 数 轴 坐 标的 一 些 选 项 ， 














with(obama_vs_mccain, plot(Income, Turnout, log = "y")) 
# 图 14-3 
with(obama_vs_mccain, plot(Income, Turnout, log = "xy")) 
# 图 14-4 











图 14-3 和 图 
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14-3: 使 用 base 图 形 系 统 的 y 轴 对 数 坐标 


我 们 可 以 看 到 ， 收 入 和 投票 率 之 间 有 明显 的 正 相 关 关系 ， 并 且 在 对 数 坐 标 中 这 种 相关 性 更 
强 。 下 一 个 问题 是 :“ 这 种 关系 在 美国 所 有 地 区 中 是 否 都 一 样 ”要 回答 这 个 问题 ， 可 根 
据 Region 列 把 数据 分 割 成 最 多 10 个 标准 联邦 区 ， 并 把 “矩阵 ”中 的 每 个 子 集 都 绘制 到 一 
TRAIL. Layout 函数 用 来 控制 矩阵 中 多 个 绘图 区 的 布局 。 对 于 以 下 代码 段 ， 没 必须 花费 大 
多 的 时 间 去 理解 它 的 意思 ， 它 只 是 用 来 证 明 使 用 base 图 形 系统 把 多 个 相关 的 图 形 绘制 到 一 
起 是 可 能 的 。 不 过 遗憾 的 是 ， 这 段 代 码 看 起 来 就 像 从 传说 中 的 丑 树 中 跌 下 来 一 样 难看 ， 所 
以 这 种 技术 还 是 少 用 为 好 。 图 14-5 显示 了 其 结果 : 
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14-4; 使 用 base 图 形 系 统 的 x 和 y 轴 对 数 坐 标 


par(mar = c(3, 3, 0.5, 0.5), oma = rep.int(0, 4), mgp = c(2, 1, 0)) 

regions <- lLevels(obama_vs_mccain$Region) 

plot_numbers <- seq_along(regions) 

Layout(matrix(plot_numbers, ncol = 5, byrow = TRUE)) 

for(region in regions) 

{ 
regional_data <- subset(obama_vs_mccain, Region == region) 
with(regional_data, plot(Income, Turnout) ) 


} 
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14-5: 使 用 base 图 形 系统 在 同一 张 图 中 显示 多 个 子 图 


14.4.2 第 二 种 方法 : Lattice 图 形 系统 

lattice 版 本 的 plot 是 xyplot。 它 使 用 了 一 个 公式 接口 来 指定 x 和 y 坐标 变量 。 公 式 将 在 
15.4 节 中 深入 讨论 ， 现 在 你 需要 做 的 是 输入 yvar ~ xvar。 接 着 ，xyplot (和 其 他 lattice 
函数 ) 还 需要 一 个 data 参数 ， 此 参数 将 告诉 它 从 哪个 数据 框 中 寻找 变量 。 图 14-6 是 图 14-1 
HJ Lattice 版 本 : 








al 











library(lattice) 
xypLot(Turnout ~ Income, obama_vs_mccain) 











Turnout 
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14-6: 使 用 lattice 系统 绘制 的 简单 散 点 图 











很 多 用 于 改变 绘图 功能 的 选项 与 base 系统 基本 相同 。 图 14-7 模仿 图 14-2 改变 了 颜色 和 点 
的 形状 : 








xyplot(Turnout ~ Income, obama_vs_mccain, col = "violet", pch = 20) 


但 是 ， 轴 的 尺度 需要 以 不 同 的 方式 指定 。Lattice 绘图 接受 一 个 scales 参数 ， 而 且 它 必须 
是 一 个 列表 。 这 个 列表 里 的 内 容 必 须 是 name = value 对 ， 例 如 ，Log = TRUE 4 x Fil y 轴 设 
置 了 对 数 坐 标 。scales 列表 还 可 以 接受 其 他 命名 为 x 和 Yy 的 (F) 列表 参数 来 指定 其 中 所 
需 的 轴 的 设置 。 不 要 紧张 ， 它 没有 看 上 去 那么 复杂 。 图 14-8 和 14-9 的 例子 分 别 显 示 不 同 
坐标 的 轴 : 
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14-7: 使 用 lattice 系统 设置 颜色 和 点 的 形状 

xyplot( 

Turnout ~ Income, 

obama_vs_mccain, 

scales = list(log = TRUE) # x 和 y 轴 都 是 对 数 坐标 (图 14-8) 
) 
xyplot( 


Turnout ~ Income, 
obama_vs_mccain, 


scales = list(y = list(log = TRUE)) # y 轴 对 数 坐 标 (图 14-9) 
) 
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图 14-8: 使 用 lattice ARAY x 和 y 的 对 数 坐 标 





公式 接口 使 按 区 域 拆 分 数据 变 得 很 容易 。 我 们 只 需要 : 追加 一 个 | 号 (这 是 一 个 “ 管 
道 ” 字 符 ; 与 用 于 逻辑 的 “或 ”相同 ) 和 我 们 希望 拆 分 的 变量 ， 这 里 即 Region。 使 用 参数 
relation = "same" 意味 着 每 个 面板 都 将 使 用 相同 的 轴 。 当 参数 alternating 为 TRUE (默认 
值 ) 时 ， 每 个 面板 上 轴 的 刻度 将 在 绘图 区 的 两 侧 交 替 出 现 ， 否 则 只 出 现在 左 侧 和 底部 。 输 
出 如 图 14-10 所 示 ， 请 注意 它 对 图 14-5 的 改进 : 
































xyplot( 
Turnout ~ Income | Region, 
obama_vs_mccain, 
scales = list( 
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log = TRUE, 











relation = "same", 
alternating = FALSE 
)， 
layout = c(5, 2) 
) 
10*1.90 
10*1.85 
3 
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14-9: 使 用 点 阵 图 形 登 录 y 轴 
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14-10: 使 用 lattice 系统 在 同一 张 图 中 绘制 多 条 曲线 


lattice 系统 的 另 一 个 好 处 是 它 能 把 绘 
图 绘制 在 窗口 中 )， 因 而 可 在 之 后 更 改 它们 。 











(Lat1 <- xyplot( 
Turnout ~ Income | Region, 
obama_vs_mccain 





14-11 














14-12 





图 存储 在 变量 


Et 








图 14-12 中 显示 了 


(Lat2 <- update(lat1, col = "violet", pch = 20)) 





图 14-11 的 更 改版 本 : 


中 ，( base 绘图 与 此 相反 ， 它 只 能 把 
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B 14-11: 此 绘图 被 存储 为 变量 ， 它 会 在 图 14-12 中 被 重用 
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图 14-12; 此 图 重用 图 14-11 中 的 lattice 系统 变量 


14.4.3 第 三 种 方法 : ggplot? 图 形 系统 

ggplot2 (“2” 是 因为 尝试 了 多 次 才 得 到 理想 的 版 本 ) 从 lattice 系统 中 吸收 了 很 多 好 点 子 ， 
并 基于 它 所 建立 。 因 此 ， 将 绘图 拆 分 成 多 个 面板 非常 容易 ， 且 能 够 按 顺 序 创建 图 形 。 除 此 
之 外 ，ggplot2 有 它 自己 的 一 些 特殊 技巧 。 最 重要 的 是 ， 它 本 质 上 是 “语法 的 ">， 这 意味 着 
它 由 众多 小 的 组 件 构 成 ， 因 此 它 更 容易 创建 全 新 的 绘图 类 型 ， 如 果 你 特 想 这 么 做 的 话 。 










































































它 的 语法 与 其 他 系统 的 代码 非常 不 同 ， 要 做 好 思想 准备 来 接受 新 事物 。 每 个 绘图 由 ggplot 
函数 创建 ， 它 的 第 一 个 参数 是 一 个 数据 框 ， 第 二 个 是 aesthetic。 其 实 就 是 把 x 和 y 列 变量 
传递 给 aes 函数 。 然 后 ， 我 们 再 添加 一 个 geom 让 图 形 系统 显示 一 些 点 。 图 14-13 显示 了 
结果 : 
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Library(ggpLot2) 


ggplot(obama_vs_mccain, aes(Income, Turnout)) + 
geom_point() 
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14-13: 使 用 ggplot2 制图 法 绘制 简单 的 散 点 图 





ggplot2 不 仅 能 识别 来 自 base 图 形 系统 的 命令 来 改变 点 的 颜色 和 形状 ， 而且 也 有 它 自 己 的 
一 套 更 加 可 读 的 名 称 。 在 图 14-14 中 ，shape 取代 了 pch， 且 颜色 可 使 用 color 或 colour 来 
FE: 


ggplot(obama_vs_mccain, aes(Income, Turnout)) + 
geom_point(color = "violet", shape = 20) 
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图 14-14: 使 用 ggplot2 绘图 法 设置 点 的 颜色 和 形状 


为 了 设置 一 个 对 数 坐 标 ， 我 们 需要 为 每 个 轴 添 加 一 个 标 度 ， 如 图 14-15 所 示 。break 参数 指 
定 了 轴 刻 度 值 的 位 置 。 它 是 可 选 的 ， 但 这 里 用 来 复制 base 和 +lattice 系统 范例 中 的 行为 : 


ggplot(obama_vs_mccain, aes(Income, Turnout)) + 
geom_point() + 
scale_x_log10(breaks 


seq(2e4, 4e4, 1e4)) + 
scale_y_log10(breaks 


seq(50, 75, 5)) 
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14-15; 使 用 ggplot2 绘制 对 数 坐标 




















为 了 把 绘图 分 割 成 不 同 的 面板 ， 我 们 诡 加 一 个 切面 (facet)。 与 lattice 中 的 绘图 类 似 ， 切 
看 带 有 一 个 公式 参数 。 图 14-16 显示 了 facet_wrap 国 数 的 行为 。 为 方便 阅读 ，x 轴 的 刻度 
已 被 旋转 了 30 Æ, HH theme 函数 使 其 右 对 齐 : 



































ggplot(obama_vs_mccain, aes(Income, Turnout)) + 
geom_point() + 
scale_x_log10(breaks = seq(2e4, 4e4, 1e4)) + 
scale_y_log10(breaks = seq(50, 75, 5)) + 
facet_wrap(~ Region, ncol = 4) 
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图 14-16: 使 用 ggptot2 把 多 个 图 形 画 在 同一 张 图 中 


为 了 将 多 个 变量 分 开 来 ， 我 们 把 公式 指定 为 类 似 ~ vari + var2 + var3 的 形式 。 对 于 只 
两 个 变量 的 特殊 情况 ，facet_grid 提供 了 另 一 种 方法 来 分 开 它 们 ， 一 个 置 于 行 中 ， 而 另 一 
个 置 于 列 中 。 




















5 lattice 类 似 ，ggplots 可 以 把 图 形 存储 到 变量 中 ， 然 后 继续 往 它 上 面 添加 东西 。 下 例 重 
新 绘制 了 图 14-13 并 把 它 存 储 为 一 个 变量 。 和 往常 一 样 ， 把 表达 式 置 于 括号 中 能 使 它 自动 
打印 出 来 : 


























(gg1 <- ggplot(obama_vs_mccain, aes(Income, Turnout)) + 
geom_point() 
) 


图 14-17 显示 了 其 输出 。 我 们 可 以 使 用 以 下 代码 更 新 它 ， 并 在 图 14-18 显示 
































N 
4 


(gg2 <- gg1 + 

facet wrap(~ Region, ncol = 5) + 

theme(axis.text.x = element_text(angle = 30, hjust = 1)) 
) 
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14-17: 此 图 被 存储 为 变量 并 将 在 图 14-18 中 重用 
如 果 想 研究 连续 变量 如 何 随时 间 变 化 ， 线 图 往往 比 散 点 图 更 加 容易 理解 ， 因 为 它 能 显示 邻 





近 数 值 之 间 的 联系 。 下 例 将 在 crab_tag 数据 集中 研究 螃蟹 一 年 中 的 情况 ， 看 看 它们 曾 游 到 


北海 多 座 的 位 置 。 

















在 base 图 形 系 统 中 ， 线 图 与 散 点 图 的 创建 方式 一 样 ， 不 同 的 是 线 图 采用 参数 type = "1". 
为 了 避免 在 维度 上 的 混淆 ， 我 们 把 深度 画 成 负数 ， 而 不 是 使 用 给 定数 据 集 中 的 绝对 值 。 
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图 14-18: 此 图 重用 了 从 图 14-17 中 得 到 的 ggplot? 变量 


7R 


之 
绘图 区 范围 将 被 默认 设 为 数据 的 区 间 范 围 〈 但 会 加 多 一 点 点 ， 更 多 细节 请 参见 ?par 帮助 页 
面 的 xaxs 一 节 )。 为 了 获得 更 好 的 透视 感 ， 我 们 会 通过 传统 ylin 参数 来 手动 设置 y 轴 的 大 
小 ， 使 它 的 范围 为 螃蟹 在 诲 中 走 到 的 最 深 点 到 海平 面 之 间 。 

with( 


crab_tag$daylog, 
plot(Date, -Max.Depth, type = "1" 








| 14-19 显示 了 这 个 线 图 : 











, ylim = c(-max(Max.Depth), 0)) 
) 
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图 14-19: 使 用 base 制图 法 绘制 的 线 图 
ee ey ts 


需要 为 线 图 添加 一 





使 用 Lines 函数 在 现 有 的 绘图 


显示 了 男 一 条 线 : 


with( 


个 Min.Depth, AMAA Sie As 
PESAH., AFRA R 





crab_tag$daylog, 


lines(Date, 


) 


-Min.Depth, col = "blue") 





每 天 到 达 的 最 浅 处 。 附 加 线 可 
, 类 似 的 函数 是 points。 14-20 
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14-20: 使 用 base 制图 法 添加 另 一 条 线 
lattice 与 base 系统 遵循 类 似 的 模式 。 与 散 点 图 





—FE, lattice 也 使 用 xyplot 来 画 线 图 ， 





但 同样 也 要 使 用 type ="1" 的 参数 。 使 用 公式 接口 能 轻而易举 地 指定 多 行 。 注 意 ， 公 式 中 


的 + 号 常用 于 创建 类 似 于 图 14-21 的 图 : 





xyplot(-Min.Depth + -Max.Depth ~ Date, crab_tag$daylog, type = "1") 
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14-21: 使 用 lattice 图 形 系统 绘制 的 线 图 





在 ggplot2 中 从 散 点 图 切换 到 线 图 非常 简单 ， 只 要 把 geom_plot 替换 为 geom_Line 即 可 
(图 14-22 显示 了 结果 ) : 

















ggplot(crab_tag$daylog, aes(Date, -Min.Depth)) + 
geom_line() 
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图 14-22: 使 用 ggptot2 系统 绘制 的 线 图 





不 过 ， 在 绘制 多 条 线 时 会 有 一 点 复杂 。 当 你 在 ggplot 指定 aesthetics 时 ， 你 会 为 所 有 的 
geom 都 指定 了 这 个 aesthetics。 也 就 是 说 ，aesthetics 对 绘图 来 说 其 影响 是 “全 局 的 "。 在 下 
例 中 ， 我 们 希望 在 一 条 线 上 指定 最 大 次 度 ， 而 在 另 一 条 线 上 指定 最 小 深度 ， 如 图 14-23 所 
示 。 一 种 解决 方法 是 在 每 个 geom_Line 函数 中 指定 一 个 y-aesthetic: 











ggplot(crab_tag$daylog, aes(Date)) + 
geom_line(aes(y = -Max.Depth)) + 
geom_line(aes(y = -Min.Depth)) 
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14-23; 使 用 ggplot2 绘制 的 两 条 具有 独立 geoms 的 线 





然而 ， 这 有 点 策 拙 ， 因 为 需要 调用 geom_line 两 次 ， 且 实际 上 这 也 并 非 惯 常 的 做 法 。 在 
ggplot2 中 ,更 “恰当 的 ”方式 是 将 数据 熔化 (melt) 成 长 表 ， 然 后 把 线 分 组 (group), ， 如 
14-24 所 示 : 








Library(reshape2) 
crab_long <- melt( 
crab_tag$daylog, 
id.vars = "Date", 
measure.vars = c("Min.Depth", "Max.Depth") 
) 
ggplot(crab_long, aes(Date, -value, group = variable)) + 
geom_line() 
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14-24: 使 用 ggplot2 和 分 组 绘制 两 条 线 


对 于 只 有 两 条 线 的 场景 ， 有 一 个 更 好 的 解决 方案 ， 它 不 需要 任何 的 数据 操作 。geom_ribbon 
将 绘制 两 条 直线 以 及 它们 中 间 的 内 容 。 为 了 使 图 形 更 美观 ， 可 把 color 和 fill 参数 传递 给 
geom， 以 此 指定 线 的 颜色 和 填充 形式 。 图 14-25 显示 了 结果 : 





ggplot(crab_tag$daylog, aes(Date, ymin = -Min.Depth, ymax = -Max.Depth)) + 
geom_ribbon(color = "black", fill = "white") 
无 论 你 使 用 哪 种 系统 来 绘图 ， 螃 蟹 的 行为 都 是 非常 明确 的 。9 月 ， 它 生活 在 浅水 域 准备 交 
配 ， 然 后 花 了 几 个 月 的 时 间 迁 移 到 座 水 区 。 在 整个 冬季 、 春 季 和 夏季 它 都 愉快 地 行走 在 北 
海 海底 〈 除 了 在 6 月 初 ， 它 在 水 平面 有 一 次 奇怪 而 短暂 的 旅行 一 一 不 知道 是 数据 错误 ， 还 
是 它 从 渔船 中 捡 回 一 条 命 )。 之 后 ,在 7 月 中 旬 它 显然 从 “ 惹 崖 ” 掉 了 下 来 ， 在 让 回 浅水 
区 开始 下 一 轮 的 交配 之 前 被 捕获 了 。 
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14-25: 使 用 ggplot2 图 形 的 彩带 图 (ribbon plot) 


146 HAA 


如 果 你 要 研究 一 个 连续 变量 的 分 布 ， 直 方 图 是 最 佳 选择 “。 

















在 下 例 中 ， 我 们 将 返回 到 obama_vs_mccain 数据 集 ， 这 次 只 研究 奥巴马 的 得 票 比例 分 布 。 
在 base 中 可 以 使 用 hist 函数 绘制 直方 图 ， 如 图 14-26 所 示 。 与 plot 类 似 ， 它 没有 data 
参数 ， 须 把 它 置 于 with 内 : 





























注 6: Dataviz 的 狂热 粉丝 常 认为 核 密度 图 (kernel density plot) 对 于 这 种 分 布 来 说 会 有 “更 好 ”的 表现 形式 。 
但 缺点 是 每 次 向 没 学 过 统计 的 人 展示 时 ， 得 先 花 上 15 分 钟 解释 什么 是 核 密 度 图 。 














with(obama_vs_mccain, hist(Obama) ) 
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图 14-26: 使 用 base 系统 绘制 的 直方 


直方 图 的 区 间 间 距 数值 默认 由 斯 特 奇 斯 (Sturges) 算法 进行 计算 。 你 可 以 实验 着 使 用 各 种 
不 同 的 子 区 间 (bin) 宽度 ， 这 样 对 分 布 的 理解 将 更 完整 。 这 非常 灵活 ， 可 以 通过 多 种 方式 
来 实现 : 给 hist 传递 一 个 数字 来 指定 区 间 的 数目 ， 或 一 个 区 间 边 缘 的 向 量 ,， 或 用 于 计算 区 
间 数 目的 算法 名 称 (除了 默认 的 "sturges" 之 外 ， 目 前 还 支持 "scott" 和 "fd")， 或 一 个 能 
计算 前 两 个 选项 之 一 的 函数 。 在 下 例 中 ， 其 结果 如 图 14-27 至 14-31 所 示 ，maiin 参数 创建 
了 图 中 的 主 标题 。 这 也 同样 适用 于 plot 函数 : 
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with(obama_vs_mccain, 









































hist(Obama, 4, main = "An exact number of bins") 
) 
# 图 14-27 
确切 数目 的 区 间 
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14-27: 在 base 系统 中 为 直方 图 指定 一 个 确切 数目 的 区 间 间 距 








with(obama_vs_mccain, 

hist(Obama, seq.int(@, 100, 5), main = "A vector of bin edges") 
) 
# 图 14-28 
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14-28: 在 base 系统 中 为 直方 图 指定 一 个 确切 数目 的 区 间 间 距 
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with(obama_vs_mccain, 
hist(Obama, "FD", main = "The name of a method") 


















































) 
# 图 14-29 
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14-29: 在 base 系统 中 使 用 算法 名 称 为 直方 图 指定 区 间 间 距 





with(obama_vs_mccain, 






































hist(Obama, nclass.scott, main = "A function for the number of bins") 
) 
# 图 14-30 
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图 14-30: 在 base 系统 中 使 用 返回 区 间 数 的 函数 为 直方 图 指定 区 间 间 距 
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binner <- function(x) 





{ 
seq(min(x, na.rm = TRUE), max(x, na.rm = TRUE), Length.out = 50) 
} 
with(obama_vs_mccain, 
hist(Obama, binner, main = "A function for the bin edges") 
) 
# 图 14-31 


































































































区 间 边 缘 的 函数 
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14-31: 在 base 系统 中 使 用 返回 区 间 边 缘 的 函数 为 直方 图 指定 区 间 间 距 














freq 参数 控制 直方 图 是 否 显示 计数 或 显示 每 个 区 间 的 概率 密度 。 当 且 仅 当 区 间 是 均匀 分 布 
时 ， 它 默认 为 TRUE。 图 14-32 显示 其 输出 : 











with(obama_vs_mccain, hist(Obama, freq = FALSE)) 
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图 14-32: 使 用 base 系统 绘制 的 概率 密度 直方 


lattice 中 的 直方 图 与 base 的 类 似 ， 不 过 它 还 使 用 了 一 个 data 参数 ， 这 个 参数 使 它 能 更 易 
于 分 割 成 多 个 面板 ， 且 能 把 绘图 保存 为 变量 。breaks 参数 与 其 在 hist 中 的 使 用 方式 相同 。 
图 14-33 和 14-34 显示 了 lattice 直方 图 及 其 区 间 间 距 的 规格 : 
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histogram(~ Obama, obama_vs_mccain) 


# 图 14-33 


histogram(~ Obama, obama_vs_mccain, breaks = 
# 图 14-34 
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图 14-33; 使 用 lattice 系统 绘制 的 直方 图 
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B 14-34; 在 lattice 系统 中 指定 区 间 间 距 
lattice 中 的 直方 图 能 通过 指定 接收 字符 串 "count", "density" 或 "percent" 的 type 参数 
支持 计数 、 概 率 密度 和 百分比 y 轴 。 图 14-35 显示 了 "percent”( 百 分 比 ) 的 风格 : 


histogram(~ Obama, obama_vs_mccain, type = "percent") 
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B 14-35: 使 用 lattice 系统 绘制 的 按 百 分 比 缩放 的 直方 图 


ggplot2 直方 图 是 通过 添加 一 个 直方 图 的 geom 来 创建 的 。 其 区 间 规 格 很 简单 :只 需要 传递 
一 个 数字 宽度 到 geom_histogram 即 可 。 其 原因 是 为 了 迫使 你 手动 尝试 不 同 的 区 间 数 ， 而 不 
仅仅 满足 于 于 默认 值 。 图 14-36 显示 了 其 用 法 : 








ggplot(obama_vs_mccain, aes(Obama)) + 
geom_histogram(binwidth = 5) 
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图 14-36: 使 用 ggplot2 系统 绘制 的 直方 图 








你 可 以 通过 传递 特殊 的 名 字 ..count.. 或 ..density.. 到 y-aesthetic 中 来 选择 计数 或 密度 。 
图 14-37 演示 了 使 用 density 绘制 的 图 形 : 








ggplot(obama_vs_mccain, aes(Obama, ..density..)) + 
geom_histogram(binwidth = 5) 
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图 14-37: 使 用 ggplot2 系统 绘制 的 概率 密度 直方 图 


14.7 HRE 
如 果 你 想 研 究 大 量 相 关 变 量 的 分 布 ， 可 绘制 大 量 的 直方 图 。 例 如 ， 如 果 想 按 区 域 查看 奥 巴 
马 得 票数 的 分 布 ， 可 以 使 用 网 格 及 切面 法 绘制 10 张 直方 图 。 这 是 可 行 的 ， 但 它 不 能 很 好 
地 扩展 。 如 果 你 需要 一 百 张 直方 图 ， 即 使 用 上 最 大 的 显示 器 也 放 不 下 。 箱 线 图 (box plot, 
有 时 也 被 称 为 盒 须 图 或 盒 形 图) 能 节省 大 量 空间 ， 让 你 能 轻松 地 一 次 比较 众多 的 分 布 。 尽 
管 你 不 能 得 到 像 直方 图 或 核 密度 图 那样 多 的 细节 ， 但 简单 的 高 低 和 宽窄 之 间 的 比较 是 没 问 
题 的 。 
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base 系统 中 绘制 箱 线 图 的 函数 为 boxplot。 它 在 很 大 程度 上 受到 lattice 的 启发 一 一 它 使 
用 一 个 公式 接口 且 需 要 data 参数 。 图 14-38 显示 了 其 用 法 : 








boxpLot(Obama ~ Region, data = obama_vs_mccain) 
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图 14-38: 使 用 base 系统 绘制 的 箱 线 图 


在 某 种 意义 上 ， 如 果 我 们 重新 把 箱 形 图 从 小 到 大 排列 ， 这 种 类 型 的 绘图 往往 会 更 清楚 。 
reorder 国 数 能 根据 数值 得 分 的 情况 改变 因子 水 平 的 顺序 。 在 图 14-39 中 ， 我 们 按 奥巴马 得 
票 的 中 位 数 给 每 个 区 域 的 Region 级 别 打分 : 
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ovm <- within( 

obama_vs_mccain, 

Region <- reorder(Region, Obama, median) 
) 


boxplot(Obama ~ Region, data = ovm) 
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14-39: 使 用 base 系统 为 箱 线 图 排序 


从 base 切换 到 lattice 非常 简单 。 在 本 例 中 ， 我 们 可 以 直接 将 boxplot 替换 为 bwplot (bw 
是 b (box) 和 w (whisker) 的 简称 )。 请 注意 图 14-40 和 图 14-38 的 相似 处 : 








bwpLot(Obama ~ Region, data = ovm) 
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图 14-40: 使 用 lattice 绘制 的 箱 线 图 
图 14-41 所 示 : 





在 ggplot2 中 绘制 箱 线 图 只 需 我 们 添加 一 个 geom_boxplot， 如 





ggplot(ovm, aes(Region, Obama)) + 
geom_boxplot() 
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14-41; 使 用 ggplot2 系统 绘制 的 箱 线 图 


148 条 形 图 





条 形 图 (bar chart， 又 名 柱状 图 、 方 框图 等 ) 是 一 种 显示 数值 变量 “的 自然 方式 ， 此 数值 变 
量 通常 被 类 别 变量 所 分 割 开 。 在 下 例 中 ， 我 们 来 看 看 宗教 身份 在 美国 各 州 的 分 布 情况 。 阿 























拉 斯 加 和 夏威夷 的 数据 没有 包括 在 数据 集中 ， 可 以 删除 这 些 记录 : 





ovm <- ovm[!(ovm$State %in% c("Alaska", "Hawaii")), ] 








注 7: 更 确切 地 说 ,它们 必须 是 可 计数 的 , 或 带 有 长 度 , 又 或 其 他 能 与 零 值 相对 比 的 值 。 对 于 对 数 比 例 来 说 ， 

















使 用 条 形 图 其 范围 可 能 会 延长 到 负 无 穷 。 在 这 种 情况 下 ， 你 应 该 使 用 点 图 。 
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在 base 系统 中 ， 条 形 图 是 使 用 barplot 国 数 创 建 的 。 与 plot 国 数 一 样 ， 它 也 没有 参数 来 


肯定 一 个 数据 框 ， 所 以 我 们 需要 把 它 置 于 with 之 内 。barptot 的 第 一 个 参数 包含 条 形 的 长 
度 。 如 果 这 是 一 个 命名 向 量 〈 如 果 你 没有 出 错 ， 而 且 是 从 一 个 数据 框 里 取得 数据 ， 这 不 会 
发 生 )， 那 么 这 些 名 称 将 用 作 条 形 图 上 的 标签 。 否 则 ， 正 如 这 里 的 做 法 ， 你 需要 通过 传递 
一 个 名 为 names .arg 的 参数 指定 标签 值 。 默 认 情 况 下 ， 条 形 都 是 垂直 的 。 但 为 了 使 州 名 更 
可 读 ， 我 们 希望 使 用 水 平 的 条 形 图 ， 这 可 以 通过 指定 horiz =TRUE 生成 。 




















要 显示 各 州 的 全 名 ， 我 们 还 要 通过 par 函数 来 调整 一 些 绘图 参数 。 由 于 历史 的 原 





数 参数 名 称 都 只 采用 缩写 ， 而 不 是 更 可 读 的 值 ， 这 检 
base 绘图 之 前 ， 最 好 先 看 看 ?par 帮助 页 面 。 





Al, KS 
EF 代码 看 起 来 就 会 相当 简洁 。 在 修改 


las 参数 ( 即 label axis style 的 缩写 ) 将 控制 标签 是 水 平 还 是 垂直 的 、 是 平行 还 是 垂直 于 轴 


















































结果 。 


的 。 对 于 水 平 来 说 ， 如 果 你 设置 las = 1， 绘 图 通常 会 更 具 可 读 性 。 参 数 mar 是 一 个 长 度 
为 4 的 数值 向 量 ， 它 将 分 别 给 出 绘图 区 下 / 左 /上 / 右 的 边 距 宽度 。 我 们 真 的 很 希望 左手 侧 
的 边 距 宽 一 点 ， 这 样 才能 把 州 的 名 字 都 放 进去 。 图 14-42 显示 了 以 下 代码 的 输 
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14-42; 使 用 base 系统 绘制 的 条 形 图 
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par(las = 1, mar = c(3, 9, 1, 1)) 

with(ovm, barplot(Catholic, names.arg = State, horiz = TRUE)) 
像 这 样 简单 的 条 形 图 看 上 去 挺 好 ， 但 更 有 意思 的 是 如 何 将 含有 几 个 变量 的 条 形 图 放 到 一 
起 。 我 们 可 以 通过 绘制 天 主教 、 新 教 、 无 宗教 者 以 及 其 他 栏 来 可 视 化 宗教 的 分 化 情况 。 为 
了 绘制 多 个 变量 ， 我 们 必须 将 它们 逐 行 分 别 放 入 一 个 矩阵 中 (rbind 对 此 非常 有 用 ) 。 


这 个 矩阵 的 列 名 被 用 为 条 形 的 名 字 ， 如果 设 有 列 名 ， 则 须 像 上 例 一 样 使 用 names.arg 来 完 
成 。 默 认 情 况 下 ， 图 中 每 个 变量 的 条 形 都 彼此 相 邻 ， 但 由 于 我 们 正 研 究 变量 之 间 的 分 化 
情况 ， 所 以 堆 又 条 形 图 更 加 合适 。 可 以 通过 传递 beside = FALSE 参数 实现 这 一 点 ， 如 图 
14-43 所 示 。 
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14-43: 使 用 base 系统 绘制 的 堆积 条 形 图 





religions <- with(ovm, rbind(Catholic, Protestant, Non.religious, Other)) 
colnames(religions) <- ovm$State 

par(las = 1, mar = c(3, 9, 1, 1)) 

barplot(religions, horiz = TRUE, beside = FALSE) 














lattice 中 与 barplot 等 效 的 函数 是 barchart， 如 图 14-44 所 示 。 该 公式 接口 与 我 们 在 散 点 
图 中 所 看 到 是 一 样 的 yvar ~ XVAR: 





barchart(State ~ Catholic, ovm) 
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B 14-44; 使 用 lattice 系统 绘制 的 条 形 图 


把 这 个 扩展 到 多 个 变量 只 需要 调整 一 下 公式 ， 传 递 stack = TRUE 即 可 绘制 堆积 的 图 形 ( 见 
图 14-45) : 
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barchart( 


State ~ Catholic + Protestant + Non.religious + Other, 


ovm, 
stack = TRUE 
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14-45: 使 用 lattice 系统 绘制 的 堆积 条 形 图 


为 了 复制 此 图 形 ，ggptot2 需要 对 数据 作 一 些 额 外 的 工作 。 我 们 需要 长 表 中 的 数据 ， 所 以 
必须 首先 对 所 需 的 列 进行 melt 操作 : 





religions_long <- melt( 


ovm, 


id.vars = "State", 








measure.vars = c("Catholic", "Protestant", "Non.religious", "Other") 





类 似 base AB, ggplot2 默认 使 用 竖 直 的 条 形 图 ; 添加 coord_flip 可 使 它 翻转 为 水 平 的 

条 形 图 。 最 后 ， 因 为 我 们 已 知 数据 集中 的 每 个 条 形 的 长 度 (无 需 再 作 计 算 )， 所 以 必须 把 

stat = "identity" 传递 到 geom 中 。 默 认 情况 下 ， 条 形 图 都 是 可 堆积 的 ， 如 图 14-46 所 示 : 
ggplot(religions_long, aes(State, value, fill = variable)) + 


geom_bar(stat = "identity") + 
coord_flip() 
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图 14-46: 使 用 ggplot2 绘制 的 堆积 条 形 图 


如 果 不 想 使 用 堆积 ， 我 们 必须 把 参数 position = "dodge" 传递 给 geom bar。 如 图 14-47 
所 示 : 
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ggplot(religions_long, aes(State, value, fill = variable)) + 


geom_bar(stat = "identity", position = "dodge") + 
coord_flip() 
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14-47: 使 用 ggplot2 绘制 并 列 (dodged) 条 形 图 


此 参数 的 另 一 种 选项 是 position = "filL"， 它 所 创建 出 的 每 个 堆积 条 都 具有 同样 的 高 度 ， 


范围 是 0~100% 。 试 试 吧 ! 


14.9 ”其 他 的 绘图 包 和 系统 


还 有 许多 其 他 的 软件 包 具 有 绘图 能 力 ， 它 们 都 是 基于 上 述 三 种 
实现 的 。 例 如 ，vcd 包 有 很 多 用 于 类 别 数据 可 视 化 的 绘图 函数 


图 形 系统 中 的 一 个 或 多 个 而 
(例如 马赛 克 图 和 关联 图 )， 








plotrix 有 大 量 其 他 的 绘图 类 型 ， 还 有 一 些 特殊 的 图 形 分 散在 其 他 许多 包 中 。 

















LatticeExtra 和 GGally 扩展 了 Lattice 和 ggplot2 包 ，grid 提供 了 一 种 基础 框架 ， 能 同时 
支持 这 两 种 系统 。 





你 可 能 已 经 注意 到 ， 至 今 为 止 ， 所 有 已 经 涉及 的 图 形 都 是 静态 的 。 其 实 已 经 有 人 多 次 尝试 
提供 动态 和 交互 式 的 图 形 “。 至 今 还 没有 十 分 完美 的 解决 方案 出 现 ， 但 许多 有 意思 的 包 正 
在 做 此 尝试 。 














gridsv6 能 让 你 把 基于 网 格 的 图 形 (例如 lattice 或 ggplot2) 输出 到 SVG 文件 中 。 这 些 是 
可 以 交互 的 ， 但 它 需 要 一 些 JavaScript 的 知识 。playwith 允许 点 击 操作 与 base 或 Lattice 系 
统 互动 。iptLots 提供 了 整套 额外 的 、 更 具 交 互 式 的 绘图 系统 。 这 不 大 容易 扩展 ， 但 是 通用 
的 绘图 类 型 就 在 你 面前 ， 你 可 通过 鼠标 快速 地 研究 数据 。googlevis 提供 了 一 个 谷歌 图 表 
工具 (Google Chart Tools) 的 封装 包 ， 它 能 创建 在 浏览 器 中 显示 的 图 形 。rggobi 提供 了 一 
个 GGobi (用 于 可 视 化 高 维 数据 ) 的 接口 ， 以 及 rgl 提供 了 一 个 OpenGL 的 交互 式 3D 绘 
图 接口 。animation 包 能 让 你 生成 GIF 或 SWF 动画 文件 。 






































Rİ 


rCharts 包 使 用 lattice 语法 封装 了 半 打 的 JavaScript 绘图 库 。 它 现在 还 不 能 通过 CRAN 取 
得 ， 你 需要 从 GitHub 上 安装 它 : 














library(devtools) 
install_github("rCharts", "ramnathv") 


14.10 “小 结 


。 我 们 可 以 计算 大 量 的 汇总 统计 。 

。 R 有 3 种 图 形 系 统 : base, lattice 和 ggplot2. 
。 每 个 系统 都 支持 所 有 常见 的 绘图 类 型 。 

。 R 中 有 一 些 函数 能 支持 动态 和 交互 式 绘图 。 














14.11 知识 测试 : 问题 
。 问题 14-1 


min 和 pmin 函数 之 间 的 区 别 是 什么 ? 


。 问题 14-2 
在 base 图 形 系 统 中 如 何 改 变 点 的 形状 ? 





。 问题 14-3 
在 lattice 图 形 系统 中 ， 你 将 如 何 指定 x 和 y 变量 ? 











注 8: 动态 的 意思 就 是 像 动画 一 样 ， 交 互 意味 着 可 使 用 点 击 来 改变 它们 。 
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问题 14-4 
什么 是 ggplot2 aesthetic ? 


问题 14-5 
如 果 要 研究 连续 变量 的 分 布 ， 尽 可 能 多 地 指出 你 能 想到 的 图 形 类 型 的 名 称 。 


14.12 ”知识 测试 : 练习 


练习 14-1 
在 obama_vs_mccain 数据 集中 ， 找 出 各 州 中 失业 人 员 的 百分比 和 人 们 投票 支持 奥巴马 的 


百分比 之 间 的 (Pearson) 相关 性 。 [5] 
画 出 两 个 变量 的 散 点 图 ， 使 用 你 自己 所 选择 的 图 形 系统 。( 如 果 使 用 所 有 三 个 系统 ， 则 
会 有 积分 奖励 ) 使 用 一 个 得 [10]， 使 用 所 有 三 个 得 。[30] 


























练习 14-2 
在 alpe_d_huez2 数据 集中 ， 绘 制 出 车 手 最 快 时 间 的 分 布 ， 把 是 否 有 (涉嫌 ) 使 用 药物 
车 手 分 开 比 较 。 使 用 a) 直方 图 和 b) 箱 线 图 显示 它们 。[10] 








练习 14-3 
gonorrhoea 数据 集 包含 了 美国 不 同年 份 、 年 龄 、 种 族 和 性 别 的 淋病 感染 率 。 研 究 
随 着 年 龄 的 增长 如 何 变化 。 是 否 有 一 个 时 间 趋 势 ? 种 族 和 性 别 是 否 会 影响 感染 率 
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第 15 章 


分 布 与 建 模 











使 用 汇总 统计 和 图 形 能 很 好 地 帮助 我 们 理解 数据 ， 但 它们 有 一 定 的 局 限 性 。 统 计数 据 不 能 
告诉 你 数据 的 形状 ， 而 图 形 不 能 扩展 到 多 个 变量 (如 果 变 量 超过 五 六 个 就 会 变 得 很 混乱 ) ， 
它们 在 数量 上 也 不 可 扩展 (你 必须 亲自 察看 每 一 个 )。 而 且 统 计 和 图 形 都 不 擅长 让 你 从 数 
据 中 预测 到 什么 。 

这 就 是 我 们 需要 模型 的 原因 : 如 果 你 已 经 充分 理解 了 数据 的 结构 并 且 能 运行 一 个 合适 的 模 
型 ， 你 就 能 通过 对 相关 数据 进行 定量 判断 而 作出 预测 。 
目前 已 有 大 量 的 统计 模型 存在 ， 还 有 更 多 的 在 不 断 地 涌现 ， 连 大 学 的 统计 部 门 也 难以 消 
化 。 为 了 避免 把 这 本 书 变 成 一 门 统计 课 ， 本 章 只 处 理 一 些 非常 简单 的 回归 模型 。 如 果 你 想 
另外 了 解 统 计 学 ， 建议 阅 读 The R Book 和 Discovering Statistic Using R， 这 两 本 书 非常 详细 
地 解释 了 统计 的 概念 。 


在 运行 任何 模型 之 前 ， 我 们 需要 一 些 关 于 如 何 生成 随机 数 、 各 种 分 布 和 公式 的 背景 知识 。 


15.1 本 章 目 标 
阅读 本 章 后 ， 你 会 了 解 以 下 内 容 : 
。 如 何 生成 符合 多 种 分 布 的 随机 数 ， 










































































注 1: 如 果 你 无 意 中 已 经 使 用 过 biplot， 那 么 非常 好 ， 你 的 确 具 有 一 些 极 客 的 天 分 。 如 有 果 你 使 用 一 些 诸如 主 
成 分 分 析 或 因子 分 析 的 降 维 技巧 ， 绘 制 大 量 的 变量 是 可 行 的 ， 这 些 技巧 能 减少 实际 中 所 使 用 的 变量 
数目 。 
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。 如 何 从 这 些 分 布 中 找到 位 数 和 逆 位 数 ， 
。 如 何 为 一 个 模型 编写 公式 ， 

。 如 何 运 行 、 更 新 和 绘制 线性 回归 。 
15.2 ”随机 数 


随机 数 对 许多 分 析 都 至 关 重 要 ，R 具有 多 种 从 不 同 分 布 中 采样 的 函数 。 











15.2.1 示例 函数 

我 们 已 多 次 看 到 sample 函数 ( 它 首次 出 现在 第 3 章 )。 这 是 一 个 用 于 生成 随机 数 的 重要 的 
核心 函数 ， 而 其 行为 有 些 怪 诞 ， 因 而 我 们 要 对 它 做 更 深入 的 了 解 。 如 果 你 仅 传 递 一 个 数值 
n 给 它 ， 它 将 返回 从 一 个 1 到 n 的 自然 数 的 排列 : 























sample(7) 
## [1] 1257463 
如 果 你 给 它 传递 第 二 个 参数 mn， 它 将 返回 m 个 1 和 nm 之 间 的 随机 数 ; 
sample(7, 5) 
#1] 72315 
请 注意 ， 所 有 这 些 随 机 数 都 是 不 同 的。 默认 情况 下 ，sampte 国 数 不 会 重复 样本 。 也 就 是 
说 ,每 个 值 只 能 出 现 一 次 。 如 果 要 允许 有 重复 抽样 ， 可 传递 replace = TRUE 参数 : 
sample(7, 10, replace = TRUE) 
##[1] 4617536742 
当然 ， 大 多 数 情况 下 ， 返 回 自然 数 并 不 有 趣 ， 但 sample 足够 灵活 ， 它 可 以 让 我 们 从 任何 喜 
欢 的 向 量 中 采样 。 最 稼 见 的 是 给 它 传递 一 个 字符 向 量 ; 


sample(colors(), 5) # 为 你 家 房子 选择 颜色 的 好 方法 











## [1] "grey53" "deepskyblue2" "gray94" "maroon2" 
## [5] "gray18" 











如 果 我 们 再 冒 些 险 ， 可 以 传递 日 期 给 它 : 











sample(.leap.seconds, 4) 


## [1] "2012-07-01 01:00:00 BST" "1994-07-01 01:00:00 BST" 
## [3] "1981-07-01 01:00:00 BST" "1990-01-01 00:00:00 GMT" 


还 可 以 通过 传递 prob 参数 来 定义 每 个 输入 值 的 概率 权重 。 在 下 例 中 ， 我 们 使 用 R 来 随机 
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地 决定 哪个 月 去 度假 ， 然 后 改变 数据 以 增加 我 们 放 暑 假 的 机 会 : 


weights <- c(1, 1, 2, 3, 5, 8, 13, 21, 8, 3, 1, 1) 
sample(month.abb, 1, prob = weights) 


## [1] "Jul" 


15.2.2 ”从 分 布 中 抽样 

通常 情况 下 ， 我 们 想 根据 某 种 概率 分 布 来 生成 随机 数 。R 的 各 种 包 中 一 共 提 供 了 近 百 个 分 
布 国 数 、mixture 和 系 动 词 用 于 抽样 。?Distribution 帮助 页 面 文件 记录 了 R 基 本 包 里 的 
函数 。 如 果 你 还 想 了 解 更 多 秘 决 ，CRAN Task View: Probability Distributions (http://cran. 
r-project.org/web/views/Distributions.html) 提供 了 更 多 的 选择 。 

















大 部 分 的 随机 数 生成 函数 的 名 称 都 是 r<distn>。 例 如 ， 我 们 已 经 看 到 的 runif， 它 能 生成 
均匀 分 布 的 随机 数 ， 还 有 rnorm 能 生成 正 态 分 布 的 随机 数 。 这 些 国 数 的 第 一 个 参数 都 是 要 
生成 的 随机 数 的 数量 ， 其 太 参 数 则 会 影响 分 布 的 形状 。 例 如 ，runif 允许 你 设置 分 布 的 上 
限 和 下 限 : 





runif(5) # 生 成 5 个 介 于 6 和 1 之 间 的 均匀 分 布 的 随机 数 

runif(5, 1,10) # 生 成 5 个 介 于 6 和 10 之 间 的 均匀 分 布 的 随机 数 

rnorm(5) # 生 成 5 个 正 态 分 布 的 随机 数 ， 它 们 的 中 位 数 为 0， 标准 差 为 1 

rnorm(5, 3, 7) # 生 成 5 个 正 态 分 布 的 随机 数 ， 它 们 的 中 位 数 为 3， 标准 差 为 7 
与 任何 其 他 软件 一 样 ， 由 R 生成 的 随机 数字 实际 上 都 是 伪 随 机 的 。 也 就 是 说 ， 它 们 是 由 某 
种 算法 而 不 是 由 真正 的 随机 过 程 产生 的 。R 支持 多 种 优质 算法 ， 就 像 ?RNG 页 面 中 所 描述 
的 一 样 。 还 有 一 些 更 专业 的 算法 (如 并 行 数 生 成 ) 位 于 其 他 包 中 。 以 上 提 及 的 CRAN Task 
View on distributions 也 指出 在 哪里 能 找到 更 多 这 样 的 算法 。 你 可 以 看 到 使 用 RNGKind 函数 
以 及 哪些 算法 用 于 均匀 和 正 态 随机 数 的 生成 (从 其 他 分 布 中 采样 通常 也 使 用 相同 的 均匀 和 
正 态 随机 数 函 数 ) : 






































RNGkind() 


## [1] "Mersenne-Twister" "Inversion" 


随机 数 发 生 器 需要 一 个 初始 值 来 生成 数字 ， 此 初始 值 即 所 谓 的 “种 子 ”。 通 过 把 种 子 设置 
为 特定 的 值 ， 可 保证 每 次 运行 同一 段 代码 时 能 生成 相同 的 随机 数 。 例 如 ， 本 书 可 以 使 用 固 
定 的 种 子 值 ， 使 本 书 创 建 的 范例 在 每 次 运行 时 都 相同 。 使 用 set.seed 函数 设置 种 子 值 。 它 
的 输入 参数 为 一 个 正 整数 。 你 选择 哪个 整数 都 无 所 谓 ， 不 同 的 种 子 将 给 出 不 同 的 随机 数 ， 























set.seed(1) 
runif(5) 


## [1] 0.2655 0.3721 0.5729 0.9082 0.2017 
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set.seed(1) 
runif(5) 


## [1] 0.2655 0.3721 0.5729 0.9082 0.2017 


set.seed(1) 
runif(5) 


## [1] 0.2655 0.3721 0.5729 0.9082 0.2017 


你 也 可 以 指定 不 同 的 生成 算法 ， 这 种 用 法 相当 高 级 ， 不 要 贸然 采用 此 做 法 除非 很 有 把 握 。 


15.3 ”分布 


除了 作为 一 个 随机 数 生 成 器 函数 ， 大 多 数 分 布 也 有 计算 其 概率 密度 函数 (PDF), BROM 
国 数 (CDF) 和 CDF 反 函 数 的 函数 。 

















与 RNG 函数 的 名 称 以 r 开头 类 似 ， 这 些 
分 布 具有 dnorm、pnorm 和 qnorn 函数 。 这 
(这 里 考虑 到 代码 相当 繁琐 所 以 省 略 了 。) 





函数 的 名 称 分 别 以 4d、p 和 9q 开头 。 例 如 ， 正 态 
些 函 数 也 许 最 好 以 图 形 来 表示 ， 如 图 15-1 所 示 。 








PDF (dnorm) CDF (pnorm) Inverse CDF (qnorm) 

0.4- 1.00 - 4- 

0.3- 0.75 - 2- 
>» 0.2- 0.50 - 0- 

0.1 - 0.25 - 24 

0.0- 0.00 - 

1 1 I 1 1 1 1 1 1 1 -4 一 1 1 1 1 
-4 -2 0 2 4 -4 -2 0 2 4 0.00 0.25 0.50 0.75 1.00 
X 











15-1; PDF, CDF 和 正 态 分 布 的 逆 CDF 


15.4 公式 


我 们 已 经 看 到 在 lattice 绘图 和 ggplot2 面板 中 使 用 了 公式 。 许 多 统计 模型 为 了 指定 模型 
中 变量 的 结构 都 类 似 地 使 用 了 公式 。 公 式 的 确切 含义 取决 于 传递 给 它 的 模型 函数 (相同 的 
公式 分 别 出 现 在 Lattice 绘图 和 ggplot2 面板 中 时 ， 它 们 的 含义 是 不 同 的 )， 但 大 多 数 模 型 
都 满足 一 个 通用 的 模式 ， 左边 指定 响应 变量 ， 右 边 指 定 自 变量 ， 两 者 由 波浪 线 隔 开 。 回 到 
gonorrhoea 数据 集 的 例子 ， 我 们 有 : 
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Rate ~ Year + Age.Group + Ethnicity + Gender 
在 这 里 ，Rate 是 响应 变量 ， 我 们 选择 了 四 个 自 变 量 (year/age group/ethnicity/gender) 。 对 于 
可 包括 截 距 的 模型 (几乎 都 是 回归 模型 )， 这 样 的 公式 隐 式 包含 了 截 距 。 如 果 把 它 传递 给 
一 个 线性 回归 模型 ， 这 将 意味 着 : 
































Rate = a) + a, * Year + a, * Age.Group + a, * ethnicity + a, * Gender + € 
其 中 每 个 a 是 一 个 由 该 模型 决定 的 常数 ， 而 C6 是 正 态 分 布 的 误差 项 。 


如 果 我 们 不 想 要 截 距 项 ， 可 在 右边 添加 一 个 零 来 取消 它 : 





Rate ~ 0 + Year + Age.Group + Ethnicity + Gender 
由 该 式 给 出 的 更 新 的 公式 为 : 
Rate = a, * Year + a, * Age.Group + a; * ethnicity + a,* Gender + € 


每 个 这 些 公式 仅 包括 自 变 量 ， 它 们 之 间 没 有 任何 交互 。 如 果 要 包括 交互 ， 可 以 用 星 号 代替 
1 号: 


过 


Rate ~ Year * Age.Group * Ethnicity * Gender 


这 增加 了 所 有 可 能 的 双向 交互 (year 和 age group, year 和 ethnicity 等 )， 以 及 三 方 交互 
(year 和 age group 和 ethnicity 等 )， 一 直到 所 有 自 变量 之 间 都 有 交互 (year 和 age group 和 
ethnicity 和 gender) 。 这 往往 就 大 多 了 ， 因 为 所 有 交互 通常 是 没有 意义 的 。 


有 两 种 方式 能 限制 交互 的 程度 。 首 先 ， 你 可 以 使 用 冒号 新 增 个 别 的 交互 。 在 下 例 中 ，Year: 
Ethnicity 是 这 两 者 之 间 的 交互 ， 而 Year: Ethnicity: Gender 是 一 个 三 方 的 交互 : 








Rate ~ Year + Ethnicity + Gender + Year:Ethnicity + Year:Ethnicity: Gender 


然而 ， 如 果 你 有 超过 三 到 四 个 变量 ， 这 种 方法 就 会 显得 过 于 精细 ， 会 使 输入 变 得 很 麻烦 。 
使 用 ^ 符 号 这 种 替代 语法 能 让 你 包括 所 有 的 交互 组 合 。 下 例 包 括 了 year, ethnicity 和 
gender ， 以 及 它们 之 间 的 三 个 双向 交互 : 
Rate ~ (Year + Ethnicity + Gender) ^ 2 
还 可 以 包括 变量 的 修饰 版 本 。 例 如 ， 环 境 进 程 生成 了 大 量 符合 对 数 正 态 分 布 的 变量 ， 你 可 
能 希望 把 它们 包含 到 一 个 Log(var) 的 线性 回归 中 。 这 些 项 可 以 直接 包括 在 内 ， 但 你 可 能 
经 发 现 ， 包 括 var^2 时 会 产生 问题 。 因 为 该 语法 是 保留 给 交互 使 用 的 ， 所 以 如 果 你 想 把 需 
计算 包含 在 内 ， 把 它们 包括 在 I() AME: 
































Rate ~ I(Year ^ 2) # 是 Year 的 平方 ， 而 不 是 交互 
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15.5 第 一 个 模型 : 线性 回归 


普通 最 小 二 乘法 线性 回归 在 众多 回归 模型 家 族 中 是 最 简单 的 一 个 。 用 于 计算 它 的 函数 是 名 
字 非 常 简约 的 lm( 即 线性 模型 linear model 的 缩写 )。 它 接受 我 们 刚刚 讨论 过 的 公式 类 型 ， 
以 及 一 个 包含 变量 模型 的 数据 框 。 来 看 一 看 gonorrhoea 数据 集 。 为 简单 起 见 ， 我 们 将 忽略 
交互 : 











model1 <- lm(Rate ~ Year + Age.Group + Ethnicity + Gender, gonorrhoea) 


如 果 我 们 打印 出 此 模型 变量 ， 它 将 列 出 了 每 个 输入 变量 的 系数 〈w 的 值 ) 。 如 果 仔 细 观 察 你 
会 发 现 ， 对 于 我 们 放 进 模型 的 两 个 类 别 变 量 (age group 和 ethnicity) ， 其 中 一 个 没有 系数 。 
例如 ， 看 不 到 9 to 4 的 年 龄 组 ， 而 American Indians & Alaskan Natives 民族 也 不 村 而 飞 。 


这 些 “ 缺 失 ” 的 类 别 被 包含 在 截 距 中 。 在 下 面 的 输出 中 ， 截 距 中 的 5540 人 为 0~4 岁 的 美 
洲 印 第 安 人 和 阿拉 斯 加 土著 女性 中 每 10 万 人 在 第 0 年 感染 淋病 的 数量 。 为 了 预测 2013 年 
的 总 感染 率 ， 加 上 2013 RLA Year 的 系数 -2.77。 为 了 预测 在 25 到 29 岁 同 种 族 的 感染 率 ， 
加 上 该 年 龄 组 的 系数 291: 




















model1 

Be 

## Call: 

## lm(formula = Rate ~ Year + Age.Group + Ethnicity + Gender, data = gonorrhoea) 
## 

## Coefficients: 

#H (Intercept) Year 
## 5540.496 -2.770 
## Age.Group5 to 9 Age.Group10 to 14 
## -0.614 15.268 
## Age.Groupi5 to 19 Age.Group20 to 24 
## 415.698 546.820 
#H Age.Group25 to 29 Age.Group30 to 34 
Be 291.098 155.872 
## Age.Group35 to 39 Age.Group40 to 44 
He 84.612 49.506 
## Age.Group45 to 54 Age.Group55 to 64 
## 27.364 8.684 
## Age.Group65 or more EthnicityAsians & Pacific Islanders 
## 1,178 -82.923 
## EthnicityHispanics EthnicityNon-Hispanic Blacks 
## -49.000 376.204 
## EthnicityNon-Hispanic Whites GenderMale 
## -68.263 -17.892 


“0- to 4-year-old female American Indians and Alaskan Natives” 


拉 斯 加 土著 女性 ) 组 被 选中 ， 是 因为 它 包含 了 每 个 因子 变量 的 第 








数据 集 和 调用 Levels 来 查看 这 些 因子 水 平 : 





(0 到 4 岁 美洲 印第安 人 和 阿 
一 级 。 我 们 可 以 通过 遍历 





lapply(Filter(is.factor, gonorrhoea), levels) 


## 
## 
## 
#H 
#H 
#H 
## 
## 
## 
#H 
#H 
#H 
#H 
#H 


除了 知道 每 个 输入 变 


SAge 
[1] 
[6] 

[11] 


SEth 
[1] 
[2] 
[3] 
[4] 
[5] 


$Gen 
[1] 


. Group 

"@ to 4" "goto 9" "10 to 14" 
"25 to 29" "30 to 34" "35 to 39" 
"55 to 64" "65 or more" 

nicity 


"American Indians & Alaskan Natives" 
"Asians & Pacific Islanders" 
"Hispanics" 

"Non-Hispanic Blacks" 

"Non-Hispanic Whites" 


der 
"Female" "Male" 


i=l 
a 





lh 


响 大 小 之 外 ， 我 们 通常 I 


"15 to 19" "20 to 24" 
"40 to 44" "45 to 54" 
还 想 知 道 哪些 变量 是 最 重要 的 。summ 


ary 











函数 被 重 载 了 ， 它 可 与 im 一 起 工作 来 做 到 这 一 点 。summary 输出 中 最 令 人 兴奋 的 就 是 其 系 
RR, Estimate 列 显示 了 我 们 已 看 到 过 的 系数 ， 以 及 第 四 列 Pr(>|t|) 显示 了 p 值 。 第 五 列 


给 出 了 一 个 星 级 评定 : 所 在 p 值 小 于 9.05 的 变 


a 
里 











推 。 这 使 得 它 便于 快速 查看 哪些 变量 有 显著 效果 : 


得 到 一 星 ， 小 于 9.01 为 二 星 级 ， 以 此 





summary(model1) 

Be 

## Call: 

## lm(formula = Rate ~ Year + Age.Group + Ethnicity + Gender, data = gonorrhoea) 
## 

## Residuals: 

#H Min 1Q Median 3Q Max 

## -376.7 -130.6 37.1 90.7 1467.1 

## 

## Coefficients: 

Ht Estimate Std. Error t value Pr(>|t|) 
## (Intercept) 5540.496 14866.406 0.37 0.7095 
## Year -2.770 7.400 -0.37 0.7083 
## Age.Group5 to 9 -0.614 51.268 -0.01 0.9904 
## Age.Group10 to 14 15.268 51.268 0.30 0.7660 
## Age.Group15 to 19 415.698 51.268 8.11 3.0e-15 
## Age.Group20 to 24 546.820 51.268 10.67 < 2e-16 
## Age.Group25 to 29 291.098 51.268 5.68 2.2e-08 
## Age.Group30 to 34 155.872 51.268 3.04 0.0025 
## Age.Group35 to 39 84.612 51.268 1.65 0.0994 
## Age.Group40 to 44 49.506 51.268 0.97 0.3346 
## Age.Group45 to 54 27.364 51.268 0.53 0.5937 
## Age.Group55 to 64 8.684 51.268 0.17 0.8656 
## Age.Group65 or more 1.178 51.268 0.02 0.9817 
## EthnicityAsians & Pacific Islanders -82.923 33.093 -2.51 0.0125 
## EthnicityHispanics -49.000 33.093 -1.48 0.1392 
## EthnicityNon-Hispanic Blacks 376.204 33.093 11.37 < 2e-16 


Ne 





类 
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## 
## 
HH 
## 
## 
## 
## 
## 
HH 
## 
## 
## 
## 
## 
HH 
## 
## 
## 
## 
## 
## 
HH 
## 
## 
## 
## 
HH 


15.5. 


的 模型 。 


EthnicityNon-Hispanic Whites -68.263 33.093 -2.06 0.0396 


Gend 


(Int 
Year 
Age. 
Age. 
Age. 
Age. 
Age. 
Age. 
Age. 
Age. 
Age. 
Age. 
Age. 


Gend 


erMale 


ercept) 


Group5 to 9 


Group10 
Group15 
Group20 
Group25 
Group30 
Group35 
Group40 
Group45 
Group55 
Group65 


erMale 


to 
to 
to 
to 
to 
to 
to 
to 
to 
or 


14 
19 
24 
29 
34 
39 
44 
54 
64 


-17.892 20.930 -0.85 0.3930 


more 
EthnicityAsians & Pacific Islanders * 
EthnicityHispanics 
EthnicityNon-Hispanic Blacks eek 
EthnicityNon-Hispanic Whites * 


Signif. codes: © '***' 0.001 '**' 0.01 '*' 0.05 '.' O41 ' ' 1 


Residual standard error: 256 on 582 degrees of freedom 
Multiple R-squared: 0.491, Adjusted R-squared: 0.476 
F-statistic: 33.1 on 17 and 582 DF, p-value: <2e-16 


比较 和 更 新 模型 


通常 ， 我 们 不 会 满足 于 所 得 到 的 第 一 个 模型 ， 而 是 想 找 到 “最 佳 ”模型 或 一 些 能 提供 洞 见 


1 











本 方 展示 了 一 些 用 于 测量 模型 质量 的 指标 ， 如 p 值 和 对 数 似 然 测 量 。 通 过 使 用 这 些 指标 来 
比较 模型 ， 你 可 以 不 断 地 自动 更 新 模型 ， 直 到 找到 一 个 “最 佳 ” 模 型 为 止 。 

不 季 的 是 ， 像 这 样 的 模型 
且 当 你 增加 了 输入 变量 的 数量 ， 它 会 变 得 更 糟 。 








自动 更 新 (逐步 回归 ) 对 于 选择 模型 来 说 不 是 一 个 好 的 方法 ， 而 





更 好 的 模型 选择 方法 ， 如 模型 培训 或 模型 平均 ， 本 书 不 作 讨 论 。 网 站 CrossValidated 
statistics Q&A site (http://bitly/la5q6IQ) 列举 了 一 些 比较 好 方法 。 


Va 





ww 





试图 找到 “最 佳 ”模型 本 身 就 是 错 的 。 好 的 模型 即 能 对 你 的 问题 有 所 局 发 ， 





a 而 这 样 的 模型 可 能 有 多 个 。 


为 了 明智 地 给 我 们 的 数据 选择 一 个 模型 ， 我 们 需要 对 影响 淋病 感染 率 的 因素 有 所 了 解 。 淋 
病 主要 通过 性 传播 《有 一 些 是 在 母亲 分 娩 的 过 程 中 传染 给 了 婴儿 )， 所 以 它 最 主要 的 驱动 
因素 与 性 文化 有 关 : 如 有 多 少 个 性 伙伴 ， 进 行 过 多 少 次 没有 保护 措施 的 性 行为 。 
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对 于 Year 的 p 值 是 .71， 这 意味 着 它 的 影响 还 谈 不 上 显著 。 在 如 此 短 的 时 间 内 (五 年 的 
数据 )， 如 有 果 性 文化 上 有 任何 变化 能 对 感染 率 产生 重要 的 影响 ， 我 会 感到 很 尺 讶 ， 所 以 看 
看 如 果 删 除 它 会 发 生 什么 。 

无 须 重新 指定 模型 ， 我 们 可 以 使 用 update 国 数 修改 它 。 它 接受 一 个 模型 和 公式 为 输入 参 


数 。 我 们 只 更 新 公式 的 右边 ， 左边 保持 不 变 。 在 下 例 中 ，. 的 意思 是 : 此 项 已 在 公式 中 ， 
而 减 号 - 的 意思 是 : 删除 此 下 一 项 : 



































model2 <- update(model1, ~ . - Year) 

summary(model2) 

## 

## Call: 

## lm(formula = Rate ~ Age.Group + Ethnicity + Gender, data = gonorrhoea) 
Be 

## Residuals: 

#H Min 1Q Median 3Q Max 

## -377.6 -128.4 34.6 92.2 1472.6 

## 

## Coefficients: 

## Estimate Std. Error t value Pr(>|t|) 
## (Intercept) -25.103 43.116 -0.58 0.5606 
## Age.Group5 to 9 -0.614 51.230 -0.01 0.9904 
## Age.Group10 to 14 15.268 51.230 0.30 0.7658 
## Age.Group15 to 19 415.698 51.230 8.11 2.9e-15 
## Age.Group20 to 24 546.820 51.230 10.67 < 2e-16 
## Age.Group25 to 29 291.098 51.230 5.68 2.1e-08 
## Age.Group30 to 34 155.872 51.230 3.04 0.0025 
## Age.Group35 to 39 84.612 51.230 1.65 0.0992 
## Age.Group40 to 44 49.506 51.230 0.97 0.3343 
## Age.Group45 to 54 27.364 51.230 0.53 0.5934 
## Age.Group55 to 64 8.684 51.230 0.17 0.8655 
## Age.Group65 or more 1.178 51.230 0.02 0.9817 
## EthnicityAsians & Pacific Islanders -82.923 33.069 -2.51 0.0124 
## EthnicityHispanics -49.000 33.069 -1.48 0.1389 
## EthnicityNon-Hispanic Blacks 376.204 33.069 11.38 < 2e-16 
## EthnicityNon-Hispanic Whites -68.263 33.069 -2.06 0.0394 
## GenderMale -17.892 20.915 -0.86 0.3926 
BH 


## (Intercept) 
## Age.Group5 to 9 
## Age.Group10 to 14 


## Age.Group15 to 19 nae 
## Age.Group20 to 24 RRK 
## Age.Group25 to 29 TEF 
## Age.Group30 to 34 XE 


## Age.Group35 to 39 

## Age.Group40 to 44 

## Age.Group45 to 54 

## Age.Group55 to 64 

## Age.Group65 or more 

## EthnicityAsians & Pacific Islanders * 
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## EthnicityHispanics 


## EthnicityNon-Hispanic Blacks RER 

## EthnicityNon-Hispanic Whites * 

## GenderMale 

## --- 

## Signif. codes: © '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 
## 

## Residual standard error: 256 on 583 degrees of freedom 

## Multiple R-squared: 0.491, Adjusted R-squared: 0.477 


## F-statistic: 35.2 on 16 and 583 DF, p-value: <2e-16 











anova 国 数 能 计算 模型 的 方差 分 析 表 (ANalysis Of VAriance), ， 让 你 看 到 简化 模型 与 全 面 的 
模型 相 比 是 否 有 显著 区 别 : 








anova(model1, model2) 


## Analysis of Variance Table 

## 

## Model 1: Rate ~ Year + Age.Group + Ethnicity + Gender 
## Model 2: Rate ~ Age.Group + Ethnicity + Gender 


## Res.Df RSS Df Sum of Sq F Pr(>F) 
## 1 582 38243062 
## 2 583 38252272 -1 -9210 0.14 0.71 


右边 列 中 的 p 值 是 9.71， 所 以 删除 year 一 项 并 没有 显著 影响 拟 合 此 数据 的 模型 。 


赤 池 (Akaike) 和 贝 叶 斯 ( Bayesian) 信息 准则 提供 了 另外 两 种 比较 模型 的 方法 ， 即 ATC 
和 BIC 国 数 。 它 们 利用 了 对 数 似 然 值 ， 它 们 能 告诉 你 用 这 个 模型 来 拟 合 数据 会 有 多 好 ， 而 
且 会 根据 模型 的 项 数 多 少 决定 如 何 作出 惩罚 〈 所 以 简单 的 模型 比 复杂 的 更 好 )。 大 致 上 较 
小 的 数字 对 应 于 “更 好 ”的 模型 

AIC(model1, model2) 

Be df AIC 

## model1 19 8378 

## model2 18 8376 

BIC(model1, model2) 

## df BIC 


## model1 19 8462 
## model2 18 8456 


通过 创建 一 个 “不 靠 详 ”的 模型 ， 你 能 更 好 地 了 解 这 些 函 数 的 影响 。 让 我 们 删除 age group, 
它 最 能 影响 淋病 感染 率 的 预测 〈 理 应 如 此 ， 儿 童 和 老年 人 比 青 壮年 的 性 行为 要 少 得 多 ) : 








silly_model <- update(modeli, ~ . - Age.Group) 
anova(modeli, silly_model) 


## Analysis of Variance Table 
## 





#H 
#H 
## 
## 
## 
#H 
#H 


Model 1: Rate ~ Year + Age.Group + Ethnicity + Gender 

Model 2: Rate ~ Year + Ethnicity + Gender 
Res.Df 

582 38243062 

593 57212506 -11 


1 
2 


Signif. codes: 


RSS Df Sum of Sq 


0 "xe*! 


AIC(model1, silly_model) 


#H 


## model1 
## silly_model 8 8598 


df 
19 


AIC 
8378 


BIC(model1, silly_model) 


## 


## modeli 
## silly_model 8 8633 





继续 寻 


df 
19 


BIC 
8462 


在 这 个 “不 靠 谱 ” 模 型 中 ，anova HAH 


找 我 们 的 


66 Hng 


靠 谱 ” 模 型 ， 
(你 已 经 完成 了 ， 是 吧 ? )， 那 么 这 对 你 来 说 可 


F Pr(>F) 


-1.9e+07 26.2 <2e-16 *** 


0.001 '**' 0.01 





Ix! 


0.05 '. 


"0.1 ' 


i 


模型 间 的 显著 差异 ， 而 且 AIC 和 BIC 都 涨 了 不 少 。 


注意 到 性 别 是 不 显著 的 〈p=6.39)。 如 果 你 做 了 练习 14-3 


日 
能 是 


有 趣 的 ， 因 为 从 绘 














图 中 看 起 来 妇女 的 感 


染 率 会 更 高 。 保 留 这 种 想法 ， 直 到 你 做 完 本 章 结尾 的 练习 再 看 看 。 现 在 ， 让 我 们 信任 此 p 
值 ， 并 从 模型 中 删除 性 别 gender 项 : 


model3 <- update(model2, ~ . 
summary(model3) 


## 
#H 
#H 
#H 
## 
## 
## 
## 
#H 
#H 
## 
## 
## 
#H 
#H 
#H 
## 
## 
## 
#H 
#H 
#H 
## 


Call: 
lm(formula 


Residuals: 


Min 


- Gender) 


Rate ~ Age.Group + Ethnicity, data = gonorrhoea) 


-380.1 -136.1 


Coefficients: 


(Intercept) 
Group5 to 9 


Age. 
Age. 
Age. 
Age. 
Age. 
Age. 
Age. 
Age. 
Age. 
Age. 
Age. 
EthnicityAsians & Pacific Islanders -82. 


Group10 
Group15 
Group20 
Group25 
Group30 
Group35 
Group40 
Group45 
Group55 
Group65 


to 
to 
to 
to 
to 
to 
to 
to 
to 
or 


1Q Median 


35.8 


14 
19 
24 
29 
34 
39 
44 
54 
64 
more 


3Q Max 


87.4 1481.5 


Estimate Std. Error t 


-34. 
-0. 
15. 

415. 

546. 

291. 

155. 


050 
614 
268 
698 
820 
098 
872 
.612 
.506 
.364 
.684 
.178 
923 


41. 
ois 
51, 


51 


51; 


51 


51. 
ai. 
51. 
51. 
51. 
51; 
33. 


820 
218 
218 
.218 
218 
.218 
218 
218 
218 
218 
218 
218 
061 


value Pr(>|t|) 


-0.81 0.4159 
-0.01 0.9904 
0.30 0.7657 
8.12 2.9e-15 
10.68 < 2e-16 
5.68 2.1e-08 
3.04 0.0024 
1.65 0.0991 
0.97 0.3342 
0.53 0.5934 
0.17 0.8654 
0.02 0.9817 
-2.51 0.0124 
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最 后 


i 


## EthnicityHispanics -49.000 33.061 -1.48 0.1389 


## EthnicityNon-Hispanic Blacks 376.204 33.061 11.38 < 2e-16 
## EthnicityNon-Hispanic Whites -68.263 33.061 -2.06 0.0394 
## 


## (Intercept) 
## Age.Group5 to 9 
## Age.Group10 to 14 


## Age.Group15 to 19 KER 
## Age.Group20 to 24 ERR 
## Age.Group25 to 29 TER 
## Age.Group30 to 34 aR 


## Age.Group35 to 39 

## Age.Group40 to 44 

## Age.Group45 to 54 

## Age.Group55 to 64 

## Age.Group65 or more 

## EthnicityAsians & Pacific Islanders * 
## EthnicityHispanics 


## EthnicityNon-Hispanic Blacks eek 

## EthnicityNon-Hispanic Whites * 

HH --- 

## Signif. codes: © '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 
## 


## Residual standard error: 256 on 584 degrees of freedom 
## Multiple R-squared: 0.491, Adjusted R-squared: 0.477 
## F-statistic: 37.5 on 15 and 584 DF, p-value: <2e-16 


， 截 距 项 看 起 来 是 不 显著 的 。 这 是 因为 默认 组 为 0~4 岁 的 美洲 印第安 人 和 阿拉 斯 加 土 
他 们 没有 太 多 的 淋病 患者 。 


可 以 使 用 relevel 函数 设置 不 同 的 默认 值 。 作 为 一 个 在 30~34 岁 的 非 西班牙 裔 白人 ， 我 将 
有 意 把 这 个 设 定 为 默认 值 。 在 下 例 中 ， 请 注意 ， 我 们 可 以 使 用 update 函数 来 更 新 数据 框 及 


公式 : 


g2 <- within( 
gonorrhoea, 
{ 
Age.Group <- relevel(Age.Group, "30 to 34") 
Ethnicity <- relevel(Ethnicity, "Non-Hispanic Whites") 
} 
) 
model4 <- update(model3, data = g2) 
summary(model4) 


## 

## Call: 

## lm(formula = Rate ~ Age.Group + Ethnicity, data = g2) 
Be 

## Residuals: 

## Min 1Q Median 3Q Max 











注 2: 请 提醒 我 在 第 2 版 时 更 改 此 项 | 
256 | 第 15 章 


#H 
#H 
## 
## 
## 
#H 
#H 
#H 
## 
## 
## 
#H 
#H 
#H 
#H 
## 
## 
#H 
#H 
#H 
## 
## 
## 
#H 
#H 
#H 
## 
## 
## 
## 
#H 
#H 
## 
## 
## 
#H 
#H 
#H 
#H 
## 
## 
#H 
#H 


-380.1 -136.1 35.8 87.4 1481.5 


me 


.28 
.04 
.06 
275 
.07 
.63 
.64 
.39 
.08 


吉 。 ee ee | 2 at 
NWNNNRPNN UN W W 


Coefficients: 

Estimate Std. Error t value 
(Intercept) 53.6 41.8 
Age.Group0 to 4 -155.9 51.2 
Age.Group5 to 9 -156.5 51:2 
Age.Group10 to 14 -140.6 5142 
Age.Groupi5 to 19 259.8 51.2 
Age.Group20 to 24 390.9 51.2 
Age.Group25 to 29 135.2 51.2 
Age.Group35 to 39 -71.3 51:2 
Age.Group40 to 44 -106.4 S142 
Age.Group45 to 54 -128.5 51:2 
Age.Group55 to 64 -147.2 51.2 
Age.Group65 or more -154.7 S12 
EthnicityAmerican Indians & Alaskan Natives 68.3 33.1 
EthnicityAsians & Pacific Islanders -14.7 33.1 
EthnicityHispanics 19.3 33.1 
EthnicityNon-Hispanic Blacks 444.5 33.1 

Pr(>|t]) 
(Intercept) 0.2008 
Age.Group@ to 4 0.0024 ** 
Age.Group5 to 9 0.0024 ** 
Age.Group10 to 14 0.0062 ** 
Age.Group15 to 19 5.3e-Q7 *** 
Age.Group20 to 24 9.4e-14 *** 
Age.Group25 to 29 0.0085 ** 
Age.Group35 to 39 0.1647 
Age.Group40 to 44 0.0383 * 
Age.Group45 to 54 0.0124 * 
Age.Group55 to 64 0.0042 ** 
Age.Group65 or more 0.0026 ** 
EthnicityAmerican Indians & Alaskan Natives 0.0394 * 
EthnicityAsians & Pacific Islanders 0.6576 
EthnicityHispanics 0.5603 
EthnicityNon-Hispanic Blacks < 2e-16 *** 
Signif. codes: © '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 '' 1 
Residual standard error: 256 on 584 degrees of freedom 


Multiple R-squared: 0.491, Adjusted R-squared: 0.477 
F-statistic: 37.5 on 15 and 584 DF, p-value: <2e-16 





因为 现在 参考 点 不 同 了 ， 所 以 系数 和 p 值 也 改变 了 ， 但 还 是 有 很 多 的 星 号 出 现在 右 侧 的 摘 
要 输出 ， 所 以 我 们 得 知 年 龄 和 种 族 对 感染 率 有 影响 。 





15.5. 
ln 模型 有 一 个 plot 方法 允许 以 6 种 不 同 的 方式 检查 拟 合 度 的 好 坏 。 在 其 


2 绘图 和 模型 检查 














最 简单 的 形式 中 ， 


你 可 以 直接 调用 pLot(the_modeL)， 它 会 逐 张 把 图 形 绘制 出 来 。 稍 好 的 方法 是 使 用 Layout 
函数 来 一 并 查看 所 有 的 图 ， 如 图 15-2 所 示 : 
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plot_numbers <- 1:6 


Layout(matrix(plot_numbers, ncol = 2, byrow 


plot(model4, plot_numbers) 


TRUE)) 





Residuals vs Fitted 





1500 


Residuals 


-500 0 500 
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Factor Level Combinations 
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Cook's distance 
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B 15-2: 诊断 图 的 线性 模型 


在 最 上 面 ， 有 一 些 值 过 高 ( 注 
那些 点 远 高 于 “Normal Q-Q” 2 


== We 


值 )。 

















gonorrhoea[c(40, 41, 160), ] 


## Year Age.Group 





特别 是 第 40、41 和 160 行 已 被 挑选 上 








FERRE “Residuals vs Fitted” 绘 图 中 右 侧 出 现 的 大 的 正 残 差 ， 
会 图 中 的 线 ， 以 及 出 现在 “Cook’s distance” 
来 作为 异常 值 : 











绘图 中 的 峰 





Ethnicity Gender Rate 





## 40 
## 41 
## 160 


2007 
2007 
2008 


15 to 19 Non-Hispanic Blacks 
20 to 24 Non-Hispanic Blacks 
15 to 19 Non-Hispanic Blacks 


所 有 这 些 大 的 值 都 指向 非 西班牙 诊 黑 人 女性 ， 
互 项 。 


Female 2239 
Female 2200 
Female 2233 


这 表明 或 许 我 们 错过 


了 一 个 种 族 和 性 别 的 交 





258 


| si 


15 





由 tm 返回 的 模型 变量 相当 复杂 。 为 简便 起 见 ， 在 此 我 们 不 包括 其 输出 ， 但 你 可 以 按照 通 
常 的 方法 来 探索 这 些 模型 变量 的 结构 : 








str(model4) 
unclass(model14) 


有 许多 函数 能 很 方便 地 访问 模型 中 的 各 个 组 成 部 件 ， 如 Formula, nobs, residuals, 
fitted 和 coefficients: 


formula(model4) 


## Rate ~ Age.Group + Ethnicity 
## <environment: 0x000000004ed4e110> 


nobs(model4) 
## [1] 600 
head( residuals (modelL4) ) 


## 1 2 3 4 5 6 
## 102.61 102.93 87.25 -282.38 -367.61 -125.38 


head(fitted(model4) ) 


#H 1 2 3 4 5 6 
## -102.31 -102.93 -87.05 313.38 444.51 188.78 


head(coefficients(model4)) 


#H (Intercept) Age.Group® to 4 Age.Group5 to 9 Age.Group10 to 14 
## 53.56 -155.87 -156.49 -140.60 
## Age.Group15 to 19 Age.Group20 to 24 
## 259.83 390.95 





除了 这 些 ， 还 有 更 多 国 数 能 用 于 诊断 线性 回归 模型 (在 2influence.measures 页 面 中 已 列 
出 ) 的 质量 ， 你 也 可 从 summary 中 取得 R^ 的 值 (由 模型 解释 的 方差 部 分 ) : 


we 渤 


H g 




















head(cooks.distance(model4) ) 


#H 1 2 3 4 5 6 
## 0.0002824 0.0002842 0.0002042 0.0021390 0.0036250 0.0004217 


summary(model4)$r.squared 


## [1] 0.4906 


aS 


甫 助 函 数 都 能 很 好 地 替代 诊断 国 数 。 举 例 来 说 ， 如 果 你 不 想 使 用 base 图 形 系 统 来 绘制 
， 可 推出 自己 的 ggplot2 版 本 。 图 15-3 显示 残 差 与 拟 合 值 的 一 个 绘图 的 例子 : 


























diagnostics <- data.frame( 
residuals = residuals(model4), 
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fitted = fitted(model4) 

) 

ggplot(diagnostics, aes(fitted, residuals)) + 
geom_point() + 
geom_smooth(method = "loess") 





1500 - 


1000 - 


500 - 


residuals 





fitted 








15-3; 基于 ggplot2 的 残 差 与 拟 合 值 的 诊断 图 


使 用 模型 的 真正 妙 处 在 于 ， 你 可 基于 任何 一 种 你 感 兴 趣 的 模型 输入 来 预测 结果 。 更 有 趣 的 
是 ， 如 果 模 型 中 有 一 个 时 间 变 量 ， 你 就 可 预测 未 来 。 在 本 例 中 ， 让 我 们 来 看 一 看 特定 人 群 的 
感染 率 。 出 于 对 自己 所 属 人 群情 况 的 好 奇 ， 我 想 知道 30~34 岁 的 非 西班牙 毅 白 人 的 感染 率 : 























new_data <- data.frame( 
Age.Group = "30 to 34", 
Ethnicity = "Non-Hispanic Whites" 








predict(model4, new_data) 


## al 
## 53.56 


该 模型 预测 的 感染 率 为 每 10 万 人 中 会 有 54 人 。 让 我 们 把 它 与 男 一 组 的 数据 作对 比 : 


subset( 
gonorrhoea, 


Age.Group == "30 to 34" & Ethnicity == "Non-Hispanic Whites" 


) 


## Year Age.Group 
## 7 


Ethnicity Gender 
Male 


## 
## 
## 
#H 
#H 
#H 
## 
## 
## 


19 

127 
139 
247 
259 
367 
379 
487 
499 


2007 30 to 34 Non-Hispanic Whites 


2007 
2008 
2008 
2009 
2009 
2010 
2010 
2011 
2011 


30 
30 
30 
30 
30 
30 
30 
30 
30 


to 
to 
to 
to 
to 
to 
to 
to 
to 


34 
34 
34 
34 
34 
34 
34 
34 
34 


Non-Hispanic 
Non-Hispanic 
Non-Hispanic 
Non-Hispanic 
Non-Hispanic 
Non-Hispanic 
Non-Hispanic 
Non-Hispanic 
Non-Hispanic 


Whites Female 
Whites Male 
Whites Female 
Whites Male 
Whites Female 
Whites Male 
Whites Female 
Whites Male 
Whites Female 











数据 的 范围 为 34~48 ， 所 以 我 们 的 预测 稍微 有 点 高 。 


15.6 


线性 





回 





以 几乎 每 个 


完成 统计 方面 的 任务 


CAT o 








其 他 模型 类 型 


能 想 至 


HE 











Rate 
41. 
45. 
35. 
40. 
34 
33 
40 
38. 
48. 
40. 


NOUWADANAKHF AO 





归 仅 是 R 建 模 能 力 的 冰山 一 角 。 由 于 RR 现在 是 许多 大 学 统计 部 门 所 选择 的 工具 ， 所 
| 的 模型 都 会 出 现在 R 或 它 的 某 个 包 中 。 有 很 多 书 重 点 讲述 如 何 使 用 RR 来 
本 市 仅 简要 指出 哪里 能 够 找到 进一步 的 信息 。 





有 许多 人 都 编写 了 R 的 模型 函数 ， 它 们 分 布 在 很 多 不 同 的 包 中 ， 因 此 它们 
。 的 语法 各 有 千秋 。caret 包 的 封装 了 大 约 150 个 模型 ， 提 供 了 一 个 一 致 的 接 


Modeling 是 这 个 包 的 最 佳 指 引 。 














"ig ， 里 面 还 有 用 于 模型 训练 和 验证 一 些 工 具 。Max Kuhn 的 Applied Predictive 


线性 〈 普 通 最 小 二 乘 回 归 ) 模型 的 tm 函数 有 甚 泛 化 (generalization) 版 本 函数 glm, JE 
数 可 让 你 为 因 变量 上 的 误差 项 和 变换 指定 不 同 的 分 布 。 你 可 将 其 用 于 logistic 回归 (其 中 


的 响应 变量 


John Fox 的 An R Companion to Applied Regression 44 





是 逻辑 或 类 别 类 型 的 ) 或 其 他 ， 它 的 语法 跟 tn 几乎 完全 相同 : 

















glm(true_or_false ~ some + predictor + variables, data, family = binomial()) 


的 东西 。 





都 在 介绍 用 gln 函数 


4 


能 完成 哪些 很 酷 
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nlme 包 (BER 附带 ) 包含 了 用 于 线性 混合 效应 模型 (linear mixed-effects model) 的 lme EA 
数 和 用 于 非 线 性 混合 效应 模型 (nonlinear mixed-effects model) ° 的 nme。 同 样 地 ， 它 的 语 
法 与 Um 或 多 或 少 都 一 样 : 





Lme(y ~ some + fixed + effects, data, random = ~ 1 | random / effects) 


José Pinheiro 和 Doug Bates 合 著 的 Mixed-Effects Models in S and S-PLU 是 权威 的 参考 书 
其 中 有 大 量 的 范例 。 


对 于 成 比例 的 响应 变量 ，betareg 包 中 包含 了 一 个 同名 函数 ， 它 允许 进行 Beta 回归 。 这 对 
于 练习 15-3 尤其 重要 。 


对 于 数据 挖掘 者 (和 其 他 涉及 高 维 数据 集 的 人 士 ) 来 说 ， 依 附 于 R 中 的 rpart 包 能 创建 回 
归 树 (又 名 决策 树 )。 更 令 人 兴奋 的 是 ，randomForest 包 可 以 让 你 创建 大 量 的 回归 树 。c50 
和 mboost 提供 了 梯度 提升 (gradient boosting)， 它 在 许多 方面 甚至 比 随机 森林 (random 
forrest) 做 得 更 好 。 
























































kmeans 可 以 让 你 使 用 开 均 值 聚 类 (K-means clustering)， 还 有 几 个 包 能 提供 专业 扩展 ， 例 
如 kernlab A JHA AY K ISA, kml 为 纵向 的 区 均值 ，trimctust 用 于 修剪 的 K 均 值 ， 而 
skmeans 为 球形 的 K 均值 。 





如 果 你 做 过 大 量 的 数据 挖掘 的 工作 ， 你 可 能 会 对 Rattle 很 感 兴趣 ， 这 是 一 个 图 形 用 户 界面 ， 
它 可 以 轻松 地 访问 R 的 数据 挖掘 模型 。Graham Willims 撰写 了 一 本 相关 的 书 Data Mining 
With Rattle and R。 你 可 以 先 访问 这 个 网 站 http://rattle.togaware.com/， 看 看 它 是 否 吸 引 你 。 

















社会 科学 家 可 能 喜欢 传统 的 降 维 模型 (dimension-reduction model) : factanal 模型 支持 天 
子 分 析 ， 而 主 成 分 分 析 有 两 种 方法 (princomp 能 够 兼容 S-Plus， 而 prcomp 则 采用 了 更 现代 
的 、 数 值 更 稳定 的 算法 )。 


deSolve 包 中 包含 了 很 多 能 求解 常 / 偏 /延迟 微分 方程 系统 的 方法 。 








15.7 小结 


。 你 能 从 几乎 所 有 能 想到 的 分 布 中 生成 相应 的 随机 数 。 

。 大 多 数 分 布 中 有 能 计算 它们 的 PDF /CDF/ 反 CDF 的 函数 。 

。 许多 模型 函数 使 用 公式 来 指定 模型 的 形态 。 

。 ln 能 运行 一 个 线性 回归 ， 且 有 许多 辅助 函数 能 更 新 、 诊 断 和 预测 这 些 模型 。 
。 R 能 运行 广泛 的 统计 模型 。 














TES: 混合 效应 模型 是 一 种 回归 ， 其 中 的 一 些 要 预测 的 变量 会 影响 响应 而 不 是 平均 值 的 方差 。 例 如 ， 如 果 
要 测量 人 们 血液 中 的 氧气 含量 ， 那 么 你 可 能 想 知 道人 与 人 之 间 的 差别 ， 以 及 对 某 人 的 测量 值 之 间 的 
差别 ， 但 你 不 在 乎 某 个 特定 的 人 的 氧气 水 平 是 较 高 还 是 较 低 。 
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15.8 知识 测试 : 问题 

。 问题 15-1 

如 何 才能 创建 两 组 相同 的 随机 数 ? 

。 问题 15-2 

PDF 、CDF 和 反 CDF 函数 的 全 称 是 什么 ? 

。 问题 15-3 

在 模型 公式 的 上 下 文中 ， 一 个 冒号 : 是 什么 意思 ? 
。 问题 15-4 

尔 能 使 用 哪些 函数 来 比较 线性 回归 模型 ? 





。 问题 15-5 
如 何 确定 线性 模型 解释 的 方差 部 分 ? 


15.9 知识 测试 : 练习 

。 练习 15-1 
在 我 写 这 本 书 的 时 候 ， 每 个 段落 大 概 会 出 现 三 个 错别字 。 使 用 泊 松 分 布 的 PDF 函数 
dpois 来 查看 我 在 一 个 给 定 的 段落 中 恰好 出 现 三 个 错别字 的 概率 。[5] 
一 个 25 岁 的 健康 女性 在 特定 时 间 进 行 无 避孕 措施 的 性 行为 ， 则 她 每 个 月 怀孕 的 机 率 为 
25% 。 使 用 负 二 项 分 布 的 CDF 函数 pnbinom 来 计算 她 一 年 后 怀孕 的 概率 。[5] 
你 需要 23 个 人 才能 使 他 们 中 的 两 到 三 个 在 同一 天 生日 的 机 率 达 到 50%。 使 用 生日 分 


布 的 逆 CDF 函数 qbirthday 来 计算 你 需要 多 少 人 才 会 使 他 们 在 同一 天 生日 的 机 率 达 到 
90% 。[5] 











。 练习 15-2 

重新 对 gonorrhea 数据 集 进行 线性 回归 分 析 ， 只 考虑 15-34 岁 的 人 。 观 蹇 显著 的 预测 变 
量 是 否 有 所 不 同 ? [15] 

附加 分 题 : 研究 一 下 如 果 把 交互 项 加 入 到 模型 中 的 结果 是 什么 。[15] 





。 练习 15-3 
安装 并 加 载 betareg 包 。 通 过 包 里 的 betareg 函数 ， 使 用 beta 回归 来 研究 obama_vs_ 
mccain 数据 集 。 把 Obama 一 列 作为 响应 变量 。 
为 简单 起 见 ， 去 掉 “District of Columbia” 这 个 异常 区 间 ， 不 用 考虑 交互 ， 且 只 包括 一 
个 民族 (ethnicity) 和 宗教 (religion) 列 。( 种 族 和 宗教 列 并 非 独立 ， 因 为 它们 代表 了 
总 体 中 的 组 成 部 分 。) 抛 开 政治 上 的 理解 ， 纯 粹 是 为 了 更 新 模型 ， 你 可 以 信任 其 p 值 。 
提示 : 你 需要 从 0 到 1 重新 调整 Obama 列 的 范围 。[30] 
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第 16 章 


程序 设计 





写 数据 分 析 的 代码 并 非 易 事 。 本 章 将 讲述 错误 发 生机 制 ， 以 及 如 何 能 从 开始 就 尽量 避免 
错误 。 我 们 会 从 问题 报 出 后 可 能 收 到 的 不 同类 型 的 反馈 开始 ， 一 直到 遇 到 错误 。 然 后 ， 再 
来 看 看 应 该 如 何 处 理 抛 出 的 错误 ， 以 及 如 何 通 过 调试 来 消灭 它们 。 单 元 测试 框架 则 能 让 你 
尽量 减少 错误 的 代码 。 

接 下 来 ， 我 们 将 介绍 一 些 魔术 般 的 小 技巧 : 如 何 将 字符 串 转 换 成 代码 ， 以 及 将 代码 转换 成 
字符 串 。( 正 如 Tommy Cooper 的 口头 禅 ; “就 像 这 样 ! ”) 本 章 最 后 将 介绍 一 些 R 的 面向 
对 象 编程 系统 


16.1 本 章 目标 

阅读 本 章 后 ， 你 会 了 解 以 下 内 容 : 

。 如 何 通 过 消息 、 警 告 和 错误 给 用 户 提 供 反馈 

。 如 何 优雅 地 处 理 这 些 错误 ， 

。 一 些 调试 代码 的 技巧 ，; 

。 如 何 使 用 Runit 和 testthat 单元 测试 框架 ， 

。 如 何 将 字符 串 转 换 为 R 的 表达 式 及 其 相反 的 操作 ， 
。 S3 和 参考 类 面向 对 象 的 编程 系统 的 基础 知识 。 


16.2 信息、 警告 和 错误 
我 们 已 经 在 很 多 场合 下 见 过 print 函数 ， 它 能 把 变量 显示 到 控制 台 。R 有 三 种 函数 能 把 程 


E 
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序 状态 的 诊断 信息 显示 出 来 。 根 据 严 重 程度 由 小 到 大 排序 ， 它 们 分 别 是 message, warning 
和 stop. 


message 能 把 它 所 有 的 输入 拼接 起 来 ， 中 间 不 需要 任何 的 空格 ， 然 后 把 它们 都 写 到 控制 台 。 
它 常 用 于 对 长 时 间 运 行 的 函数 提供 状态 更 新 ， 或 当 要 改变 一 个 函数 时 把 新 的 行为 通知 给 用 
户 ， 又 或 是 提供 默认 参数 的 信息 : 

f <- function(x) 

{ 


message("'x' contains ", toString(x)) 
x 


f(letters[1:5]) 


## 'x' contains a, b, c, d, e 
HH [1] Wau np" men g: k We! 





比 起 print (或 更 低级 的 cat), W.E (message) 函数 的 主要 优点 是 用 户 可 以 关闭 其 显示 。 
虽然 这 看 似 微不足道 ， 但 是 当 你 要 重复 运行 相同 的 代码 时 ， 就 可 以 避免 总 是 不 断 地 看 到 同 
样 的 消息 ， 令 你 倍 受 鼓 舞 : 

suppressMessages(f(letters[1:5])) 

##. [1] "a" "p" “el "dd “er 
警告 (waming) 的 行为 与 消息 非常 相似 ， 但 它 还 有 一 些 额 外 的 特性 能 特别 指出 坏 消息 。 警 
告 适用 于 以 下 情景 ， 当 系统 出 了 问题 ， 但 并 非 错 得 离谱 以 至 于 你 的 代码 放弃 执行 。 常 见 的 
例子 是 : 糟糕 的 用 户 输入 、 较 差 的 数值 精度 ， 或 意 想不到 的 副作用 : 


g <- function(x) 
{ 
if(any(x < 0)) 
{ 
warning("'x' contains negative values: ", toString(x[x < 0])) 
x 


g(c(3, -7， 2， -9)) 


## Warning: 'x' contains negative values: -7, -9 
## [1] 3 -7 2 -9 


和 消息 一 样 ， 警 告 可 以 被 抑制 : 





suppressWarnings(g(c(3, -7, 2, -9))) 
## [1] 3 -7 2 -9 


有 一 个 全 局 选项 warn， 它 确定 如 何 处 理 警 告 。 默 认 情 况 下 warn 取 值 为 06， 这 意味 着 只 有 当 
你 的 代码 运行 完毕 ， 警 告 才 会 出 现 。 
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使 用 getOption 可 见 warn 选项 的 当前 级 别 : 
getOption("warn" 
## [1] 1 


如 有 果 该 值 小 于 零 ， 所 有 的 警告 都 将 被 忽略 : 


old_ops <- options(warn = -1) 
g(c(3, “Ty 2, -9)) 


## [1] 3 -7 2 -9 
但 通常 来 说 ， 完 全 关闭 警告 是 很 危险 的 ， 所 以 你 应 该 使 用 以 下 命令 把 选项 重 置 为 之 前 的 状态 : 
options(oLd_ops) 


把 warn 设置 为 1 意味 着 只 要 发 生 了 警告 就 马上 显示 它们 ， 如 果 值 为 2 或 其 他 更 大 的 值 则 意 
味 着 所 有 的 警告 都 将 变 成 错误 。 


可 以 通过 输入 Last.warning 访问 最 后 发 生 的 警告 。 



































我 们 在 前 面 曾 提 到 ， 如 果 warn 选项 设置 为 606， 那么 当 你 的 代码 运行 完成 后 才 会 显示 警告 。 
其 实 这 稍微 有 点 复杂 。 如 果 只 生成 了 10 个 或 更 少 的 警告 ， 那 么 之 前 的 说 法 完全 正确 。 但 
是 如 果 警 告 超 过 10 个 ， 你 会 得 到 一 个 消息 ， 说 明 一 共 已 经 生成 了 多 少 次 警告 ， 而 你 也 必 
AEA warnings() 来 查看 它们 。 如 图 16-1 所 示 。 












































> generate n warnings <- function(n) { 

+ for (i in seq len(n)) { 

+ warning("This is warning ", i) 

+j 

+} 

> generate n warnings (3) 

Warning messages: 

1: In generate n warnings (3) : This is warning 1 
2: In generate n warnings (3) : This is warning 2 
3: In generate n warnings(3) : This is warning 3 
> generate n warnings (11) 

| were 11 warnings (use warnings() to see them) 
> 











16-1; 警告 出 现 次 数 多 于 10 个 时 ， 使 用 waring 来 查看 它们 

错误 (error) 是 最 严重 的 情况 ， 且 会 停止 程序 的 执行 。 错 误 应 该 只 用 于 错误 发 生 时 ， 或 者 
你 知道 错误 将 会 发 生 时 。 常 见 的 原因 包括 无 法 纠正 的 〈 例 如 ， 通 过 as.* 函数 ) 错误 输入 ， 
无 法 读 取 或 写 和 文件， 或 严重 的 数值 误差 





h <- function(x, na.rm = FALSE) 





if(!na.rm && any(is.na(x))) 
{ 


stop("'x' has missing values.") 
x 
} 
h(c(1, NA)) 
## Error: 'x' has missing values. 


如 果 任 何 传递 给 stopifnot 的 表达 式 被 判定 为 假 时 ， 它 会 抛 出 一 个 错误 。 这 里 提供 了 一 个 
简单 的 方法 来 检查 程序 的 状态 是 否 符合 预期 : 





h <- function(x, na.rm = FALSE) 
if(!na.rm) 
stopifnot(!any(is.na(x))) 
x 
} 
h(c(1, NA)) 
## Error: !any(is.na(x)) is not TRUE 


对 于 更 广泛 的 人 性 化 的 测试 ， 使 用 assertive 包 : 


library(assertive) 
h <- function(x, na.rm = FALSE) 


if(!na.rm) 


{ 


assert_all_are_not_na(x) 


} 
x 


} 
h(c(1, NA)) 


## Error: x contains NAs. 


16.3 ”错误 处 理 


有 些 任务 本 身 就 是 有 风险 的 。 文 件 或 数据 库 的 读 取 和 写 入 是 出 了 名 的 容易 出 错 ， 因 为 你 对 
文件 系统 、 网 络 或 数据 库 没 有 完全 的 控制 权 。 其 实 ， 每 当 R 与 其 他 软件 进行 交互 (如 通过 
rJava 访问 Java 代码 ， 通 过 R2WinBUGS 访问 WinBUGS， 或 任何 其 他 数 百 个 R 可 以 连接 的 
软件 )， 都 有 引发 错误 的 可 能 。 


对 于 这 些 危险 的 任务 ， 你 需要 决定 出 现 问 题 时 如 何 处 理 。 有 时 ， 当 错误 报 出 时 ， 即 使 停 



























































注 1: 好 吧 ， 连 接 到 一 个 文件 并 不 那么 严重 ， 但 它 在 编程 中 却 属于 高 风险 。 
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止 执 行程 序 也 是 没有 用 的 。 例 如 ， 如 果 你 正在 遍历 文件 并 导入 它们 ， 如 果 这 时 导入 失败 ， 
你 不 会 希望 仅仅 停止 执行 而 失去 所 有 已 成 功 导入 的 数据 。 


事实 上 ， 这 点 可 以 概括 为 : 任何 时 候 如 果 你 的 循环 中 正在 运行 一 些 有 风险 的 事 ， 你 不 会 想 
在 一 次 迭代 失败 后 就 放弃 所 有 之 前 的 进展 。 在 下 例 中 ， 我 们 尝试 将 列表 中 的 每 个 元 素 转 换 
成 数据 帧 : 




















to_convert <- list( 
first = sapply(letters[1:5], charToRaw), 
second = polyroot(c(1, 0, 0, 0, 1)), 
third = list(x = 1:2, y = 3:5) 

) 


如 果 我 们 只 是 纯粹 运行 以 上 代码 而 不 加 任何 保护 ， 它 会 失败 : 





lapply(to_convert, as.data.frame) 
## Error: arguments imply differing number of rows: 2, 3 


AES! 第 三 个 元 素 因为 长 度 不 同 而 不 能 转换 ， 而 我 们 也 失去 了 所 有 进展 。 
防止 彻底 失败 的 最 简单 的 方法 就 是 把 容易 出 错 的 代码 包括 在 try 函数 里 : 








result <- try(LappLy(to_convert，as.data.frame)) 


现在 ， 虽 然 错误 会 被 打印 到 控制 台 上 ， 但 是 代码 不 会 停止 执行 (你 可 以 通过 传递 silent = 
TRUE 来 抑制 这 种 消息 ) 。 
如 果 传 递 给 try 函数 的 代码 执行 成 功 ( 没 有 抛 出 任何 错误 )， 那 么 result 就 是 原来 计算 的 


结果 ， 和 平时 一 样 。 如 果 代 码 运行 失败 ， 那 么 result 将 是 一 个 try-error 类 的 对 象 。 这 就 
是 说 ， 当 你 写 了 一 行 包 括 try 的 代码 ， 下 一 行 看 起 来 应 该 是 这 样 ， 






































if(inherits(result, "try-error")) 


{ 
# 用 于 错误 处 理 的 代码 


} else 





{ 
# 正常 执行 的 代码 
} 


## NULL 


因为 你 每 次 都 需要 包括 这 些 额 外 的 代码 ， 所 以 使 用 try 函数 的 代码 看 上 去 有 点 和 丑陋。 要 使 
之 更 美观 ? 则 可 使 用 tryCatch。tryCatch 接收 一 个 表达 式 来 安全 运行 ， 正 如 try 一 样 ， 且 
它 还 有 内 置 的 错误 处 理 机 制 。 


为 了 处 理 一 个 错误 ， 把 一 个 函数 传递 给 一 个 叫 error 的 参数 。 这 个 error 参数 接受 一 个 错 





注 2: 不 要 低估 代码 美观 的 重要 性 。 比 起 写 代码 ， 你 会 花 更 多 的 时 间 阅 读 它 。 
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误 (从 技术 上 讲 ， 它 是 类 simpleError 的 对 象 )， 你 可 以 任意 操作 、 打 印 或 忽略 它 。 如 果 这 
听 起 来 很 复杂 ， 请 不 要 担心 : 它 在 实际 中 非常 容易 。 在 下 例 中 ， 当 发 生 错误 时 ， 我 们 会 打 
印 错 误 消息 并 返回 一 个 空 的 数据 框 : 

















tryCatch( 
lapply(to_convert, as.data.frame), 
error = function(e) 


{ 
message("An error was thrown: 
data.frame() 
} 
) 
## An error was thrown: arguments imply differing number of rows: 2, 3 
## data frame with 0 columns and 0 rows 


使 用 tryCatch 的 另 一 个 技巧 : 你 可 以 把 一 个 表达 式 传递 给 一 个 命名 为 finatly 的 参数 ， 无 
论 错 误 是 否 抛 出 它 都 会 运行 〈 就 像 在 我 们 连接 数据 库 时 所 看 到 的 on.exit 函数 一 样 )。 


尽管 我 们 已 经 党 试 了 try 和 tryCatch， 但 是 还 没有 解决 问题 : 在 遍历 时 ， 即 使 抛 出 了 一 个 
错误 ， 我 们 也 能 保存 迭代 成 功 的 那 部 分 结果 。 


为 了 实现 这 一 目标 ， 需 把 try 或 tryCatch 置 于 循环 内 : 


» eSmessage) 











lapply( 
to_convert, 
function(x) 
{ 
tryCatch( 
as.data.frame(x)， 
error = function(e) NULL 


) 

} 
) 
## Sfirst 
## x 
## a 61 
## b 62 
## c 63 
## d 64 
## e 65 
#H 
## $second 
## x 
## 1 0.7071+0.7071i 
## 2 -0.7071+0.7071i 
## 3 -0.7071-0.7071i 
## 4 0.7071-0.7071i 
#H 
## Sthird 
## NULL 
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PA RR: 所 以 plyr 包 中 有 一 个 函数 tryapply， 它 正好 能 处 理 这 种 情 





tryapply(to_convert, as.data.frame) 


## Sfirst 

Be x 

## a 61 

## b 62 

## c 63 

## d 64 

## e 65 

## 

## Ssecond 

## x 
## 1 0.7071+0.7071i 
## 2 -0.7071+0.7071i 
## 3 -0.7071-0.7071i 
## 4 0.7071-0.7071i 


眼 尖 的 观察 者 可 能 会 发 现 ， 错 误 处 理 在 这 种 情况 下 被 直接 移 除 了 。 


16.4 调试 


所 有 不 那么 简单 的 软件 都 会 有 错误 *。 当 间 题 发 生 后 ， 你 要 能 找到 它们 发 生 在 哪里 ， 并 怀 
着 希望 去 寻找 一 种 能 修正 这 些 错误 的 方法 。 如 果 这 些 是 你 自己 的 代码 ， 那 么 尤其 如 此 。 如 
果 问 题 发 生 在 一 个 简单 脚本 中 ， 你 通常 可 以 访问 所 有 的 变量 ， 因 此 找到 问题 并 不 难 。 


问题 往往 被 深 痊 地 掩藏 在 多 个 函数 舱 套 调用 中 的 某 处 。 在 这 种 情况 下 ， 你 需要 一 个 策略 ， 
能 在 调用 栈 的 每 一 层 检 查 程序 的 状态 (“调用 栈 ” 是 个 行 话 ， 它 就 是 函数 的 调用 列表 ， 从 
中 可 以 看 到 你 的 代码 在 哪 一 层 被 调用 )。 


当 错误 发 生 时 ，traceback 函数 能 告诉 你 最 后 一 个 错误 的 发 生 位 置 。 首 先 ， 让 我 们 定义 一 
些 可 能 会 发 生 错误 的 函数 : 
































outer_fn <- function(x) inner_fn(x) 
inner_fn <- function(x) exp(x) 


现在 ， 让 我 们 使 用 一 个 错误 的 输入 调用 outer_fn (然后 再 调用 inner_fn) : 


outer_fn(list(1)) 
## Error: non-numeric argument to mathematical function 


traceback 现在 能 告诉 我 们 错误 发 生前 所 调用 的 函数 (请 看 图 16-2). 








注 3: 航天 飞机 中 的 软件 以 在 420 000 行 代码 中 只 包含 一 个 错误 而 闻名 ， 但 是 它 采 用 非常 正式 的 开发 方法 、 
代码 评审 以 及 广泛 的 测试 ， 这 些 成 本 可 不 斧 。 
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> outer fn <- function(x) inner fn(x) 

> inner fn <- function (x) exp (x) 

> outer fn(list(1)) 

Error in exp (x) : non-numeric argument to mathematical function 
> traceback () 

2: inner fn(x) at #1 

1: outer fn(list(1)) 

>| 











图 16-2: 使 用 traceback 查看 调用 栈 


一 般 来 说 ， 如 果 它 不 是 一 个 明显 的 bug， 我 们 不 知道 调用 栈 在 哪里 出 现 问题 。 一 个 合理 的 
策略 是 在 抛 出 错误 的 函数 的 开始 ， 如 果 需 要 ， 沿 着 栈 往 上 追 吝 。 要 做 到 这 一 点 ， 我 们 需要 
一 种 方法 来 在 抛 出 错误 的 地 方 停止 执行 代码 。 方 法 之 一 是 在 错误 点 之 前 添加 browser 函数 
(因为 使 用 了 traceback， 所 以 我 们 知道 错误 发 生 之 处 ) : 


























inner_fn <- function(x) 


{ 
browser() # 在 这 里 停止 执行 
exp(x) 
} 
browser 会 在 到 达 时 暂停 执行 ， 这 让 我 们 有 时 间 来 检查 程序 。 在 大 多 数 情况 下 ， 我 们 会 调 
用 1s.str 来 查看 当前 所 有 的 变量 值 。 在 本 例 中 ， 我 们 看 到 x 是 一 个 列表 而 不 是 一 个 数值 向 
量 ， 这 导致 了 exp 失败 。 


找 出 错误 的 另 一 种 策略 是 设置 全 局 的 error 选项 。 这 种 策略 最 适 于 错误 位 于 其 他 人 写 的 包 
里 面 时 ， 因 为 在 那里 很 难 调用 browser。 (你 可 以 使 用 fixInNamespace 国 数 在 安装 包 里 面 改 
变 函 数 ， 此 变化 会 持续 到 你 把 R 关闭 为 止 。) 


error 选项 能 接受 不 带 参数 的 函数 ， 并 且 会 在 错误 抛 出 时 被 调用 。 举 个 简单 的 例子 ,我们 
可 以 将 其 设置 为 发 生 错 误 后 打印 一 条 消息 ， 如 图 16-3 所 示 。 









































> oh dear <- function() message ("Oh dear!") 
> old | Ops <= options (error = oh _ dear) 

> stop("I will break your program!") 

Error: I will break your program! 

Oh dear! 

>| 








图 16-3; 覆盖 全 局 error 选项 


尽管 显示 一 条 表示 同情 的 消息 算是 对 错误 的 一 点 安慰 ， 但 这 对 解决 问题 并 没有 什么 帮助 。 
更 为 有 用 的 方法 是 R 中 自 带 的 recover 国 数 。 在 错误 抛 出 后 ，recover 可 以 让 你 跳 进 调用 
栈 中 的 任何 函数 (如 图 16-4 所 示 )。 
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> outer fn(list(1)) 
Error in exp(x) : non-numeric argument to mathematical function 


Enter a frame number, or 0 to exit 


1: outer fn(list(1)) 
2: #1: inner fn (x) 


Selection: | 











16-4; 使 用 error = recover 的 调用 栈 


你 也 可 以 通过 debug 函数 来 逐 行 调试 函数 。 不 过 ， 使 用 inner 和 outer 这 些 单行 函数 有 点 
无 聊 ， 所 以 我 们 会 以 另 一 种 方式 进行 测试 。 包 含 在 Learningr 包 中 的 buggy_count 是 plyr 
包 中 的 count 函数 的 错误 版 本 ， 当 你 给 它 传 递 一 个 因子 时 它 会 很 隐 上 史 地 出 错 。 在 命令 行 下 
只 需 按 下 Enter 键 即 可 一 直 运 行 此 函数 ， 直 到 找到 问题 : 





debug(buggy_count) 

x <- factor(sample(c("male", "female"), 20, replace = TRUE)) 

buggy_count(x) 
count (以 及 经 过 我 们 扩展 的 buggy_count 函数 ) 接受 一 个 数据 框 或 向 量 作为 第 一 个 参数 。 
如 果 df 的 参数 是 一 个 向 量 ， 那 么 该 函数 会 将 它 插 入 到 数据 框 中 。 


16-5 显示 了 当 我 们 到 达 这 部 分 代码 时 会 发 生 什么 。 当 df 是 一 个 因子 时 ， 我 们 希望 它 被 放 
在 一 个 数据 框 里 面 。 不 幸 的 是 ，is.vector 对 因子 会 返回 FALSE， 步 进 也 将 被 忽略 。 因 子 不 
是 向 量 ， 因 为 它们 除了 名 字 外 还 拥有 属性 。 代 码 中 真正 需要 包含 的 〈 并 且 是 在 正确 的 plyr 
版 本 中 ) 是 调用 is.atomic， 它 对 于 因子 和 其 他 向 量 类 型 都 会 返回 TRUE， 和 numeric 一 样 。 



































Browse[2]> 

debug at #3: if (is.vector(df)) { 
df <- data.frame(x = df) 

} 

Browse[2]> is.vector (df) 

[1] FALSE 

Browse[2]> is.atomic(df) 

[1] TRUE 











16-5: 调试 buggy_count MAX 





要 退出 调试 器 只 需 在 命令 行 键入 Q。 因 为 debug 国 数 的 作用 ， 调 试 器 将 在 每 一 个 国 数 被 调 
用 时 启动 。 要 关闭 调试 器 ， 只 需 调用 undebug: 








undebug(buggy_count) 


可 以 使 用 debugonce 作为 替代 方案 ， 它 只 在 函数 第 一 次 被 调用 时 调用 调试 器 “。 











注 4: Open Analytics 的 Tobias Verbeke 曾经 打趣 说 : “debugonce 函数 太 乐 观 了 ， 我 想 如 果 有 debugtwice 可 
能 会 更 好 。” 





16.5 测试 

为 了 避免 写 出 糟糕 的 充满 bug 的 代码 ， 测 试 非常 重要 。 单 元 测试 的 概念 就 是 一 小 块 一 小 块 
地 测试 你 的 代码 。 在 R 中 ， 这 意味 着 在 函数 级 别 测试 。( 系 统 或 集成 测试 是 对 整个 软件 的 
大 规模 的 测试 ， 但 是 比 起 数据 分 析 ， 它 更 适用 于 应 用 程序 的 开发 。) 


每 次 更 改 一 个 函数 时 ， 你 可 能 会 破坏 其 他 依赖 于 它 的 函数 。 这 就 是 说 每 次 改变 一 个 函数 
时 ， vel ane an BH RAI — Dall], PoE TREN, Bee Bb re E RE AS 
味 的 ， 所 以 通常 你 不 愿意 这 样 做 。 因 此 ， 你 需要 把 任务 自动 化 。 在 有 中， 你 有 两 种 选择 : 


RUnit 拥有 “xUnit” 的 语法 ， 这 意味 着 它 非常 类 似 于 Java 的 Juntt、.NET 的 NUnit、 
i 的 PyUnit， 以 及 其 他 一 整套 单元 测试 套件 。 如 果 你 已 使 用 过 其 他 语言 的 单元 测试 工 
具 ， 它 就 非常 容易 上 手 。 


testthat 有 自己 的 语法 ， 以 及 一 些 其 他 的 特性 。 特 别 是 它 的 测试 缓存 功能 使 它 对 于 大 型 项 
目 来 说 速度 飞快 。 


来 测试 一 下 在 6.3 节 中 初次 了 解 国 数 时 编写 的 hypotenuse 函数 。 它 使 用 了 一 个 你 能 用 纸 和 
笔 就 能 计算 的 简单 算法 ”。 该 函数 包含 在 learning 包 : 






































hypotenuse <- function(x, y) 


{ 
sqrt(x ^2 + y ^2) 
} 


16.5.1 RUnit 

在 Runit 中 ， 每 个 测试 都 是 一 个 没有 输入 的 函数 。 每 个 测试 都 会 使 用 包 中 的 某 个 check* EAI 
数 来 将 某 些 代码 (在 本 例 中 即 调用 hypotenuse) 运行 的 实际 结果 与 其 预期 值 相 比 较 。 下 例 
使 用 checkEqualsNumeric， 因 为 是 在 比较 两 个 数字 : 




















Library(RUnit) 
test.hypotenuse.3_4.returns_5 <- function() 
{ 

expected <- 5 

actual <- hypotenuse(3, 4) 

checkEqualsNumeric(expected, actual) 





目前 的 测试 没有 统一 ee 但 Runit 会 默认 查找 以 test 为 开头 的 函 
心 数 。 在 这 里 使 用 命名 约定 则 在 最 大 限度 地 把 问题 说 清楚 。 测 试 需 要 类 似 test. 


a P ~, 
Me hame _of_function. UL 的 名 称 形式 。 























注 5: MRO AB) “ACRE” RBI. ASE! 你 正在 积极 地 成 为 一 个 R 用 户 。 
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有 时 候 ， 我 们 要 确保 一 个 函数 能 以 正确 的 方式 失败 。 例 如 ， 我 们 能 测试 ， 当 没有 提供 输入 
时 ，hypotenuse 会 失败 : 


test.hypotenuse.no_inputs.fails <- function() 


checkException(hypotenuse()) 


} 


许多 算法 在 输入 很 小 或 很 大 时 会 损失 精度 ， 所 以 最 好 要 测试 这 些 边界 条 件 。R 中 可 以 表示 
的 最 小 和 最 大 的 正 数 值 由 内 置 的 .Machine 常数 double.xmin 和 double.xmax 给 出 : 








.Machine$double.xmin 

## [1] 2.225e-308 

.Machine$double. xmax 

## [1] 1.798e+308 
对 于 小 型 和 大 型 测试 ， 我 们 会 选择 往 这 些 限制 值 靠近 。 在 小 数值 的 情况 下 ， 我 们 需要 手 
动 地 缩小 试验 的 容 差 tolerance。 上 默认 情况 下 ，checkEqualsNumeric 对 于 实际 测量 结果 在 


1e-8 的 范围 内 会 认为 测试 通过 〈 它 使 用 绝对 而 不 是 相对 误差 )。 我 们 把 该 值 设 为 一 个 比 输 
入 小 几 个 数量 级 的 值 ， 以 确保 测试 按 计 划 地 失败 : 








test.hypotenuse.very_small_inputs.returns_small_positive <- function() 
{ 

expected <- sqrt(2) * 1e-300 

actual <- hypotenuse(1e-300, 1e-300) 

checkEqualsNumeric(expected, actual, tolerance = 1e-305) 
} 
test.hypotenuse.very_large_inputs.returns_large_finite <- function() 
{ 

expected <- sqrt(2) * 1e300 

actual <- hypotenuse(1e300, 1e300) 

checkEqualsNumeric(expected, actual) 


} 


可 能 的 测试 有 无 数 个 。 例 如 ， 如 果 我 们 传 入 的 是 缺失 值 会 发 生 什 么 ? 是 NULL 值 、 无 限 值 、 
FRE. Tale, BERAE? 又 或 者 是 我 们 期 望 在 非 欧 几 里 得 空间 里 得 到 答案 ?要 进 
行 彻底 的 测试 需要 你 展开 充分 的 想像 力 。 释 放 你 内 在 的 童心 ， 构 想 突破 性 测试 吧 。 现 在 ， 
在 此 打住 。 把 所 有 的 测试 保存 到 一 个 文件 中 ，Runit 会 默认 查找 所 有 以 “runit” 开 头 并 
以 .R 为 扩展 名 的 文件 。 这 些 测试 可 以 在 Learningr 包 的 tests 目录 中 找到 。 


既然 已 有 一 些 测试 用 例 ， 让 我 们 来 运行 它们 。 过 程 有 两 步 。 




















首先 ， 使 用 defneTestsutte 定义 一 个 测试 套件 。 这 个 函数 接受 一 个 字符 串 输 入 作为 命名 
(将 在 其 输出 中 使 用 ) ， 以 及 一 个 包含 了 你 所 有 的 测试 的 路 径 参数 。 如 果 没 有 按 标准 的 方式 
命名 你 的 测试 函数 或 文件 ， 可 以 提供 一 个 模式 来 识别 它们 ; 
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test_dir <- system.file("tests", package = "learningr") 
suite <- defineTestSuite("hypotenuse suite", test_dir) 


第 二 步 是 使 用 runTestsuite 来 运行 它们 (已 根据 需要 添加 了 额外 的 换行 符 ， 以 适应 本 书 的 
书写 格式 ) : 


runTestSuite(suite) 


## 
#H 
## 
## 
## 
#H 
#H 
#H 
## 
## 
## 
#H 
#H 
#H 
## 
HH 
## 
## 
## 
#H 
## 


## 
#H 
#H 


Executing test function test.hypotenuse.3_4.returns_5 ... 
done successfully. 


Executing test function test.hypotenuse.no_inputs.fails ... 
done successfully. 


Executing test function 
test. hypotenuse.very_large_inputs.returns_lLarge_finite ... 
Timing stopped at: 0 0 0 done successfully. 


Executing test function 
test. hypotenuse.very_small_inputs.returns_small_positive ... 
Timing stopped at: 0 0 0 done successfully. 


Number of test functions: 4 
Number of errors: 0 
Number of failures: 2 


这 将 运行 每 个 它 能 找到 的 测试 并 显示 是 否 通过 、 失 败 或 抛 出 了 错误 。 在 这 种 情况 下 ， 你 可 
以 看 到 小 和 大 的 输入 测试 失败 。 是 什么 出 错 了 呢 ? 

算法 的 问题 在 于 我 们 对 每 个 输入 求 了 平方 值 。 对 大 的 数字 求 平方 使 得 它 比 R 能 表示 的 最 大 
的 数 ( 双 精度 ) 还 要 大 ， 所 以 其 结果 为 无 穷 大 。 对 非常 小 的 数字 求 平方 会 使 它们 更 小 ， 以 
致 于 R 认为 其 值 为 零 。( 有 更 好 的 算法 可 以 避免 这 个 问题 ， 请 参阅 ?hypotenus 帮助 页 面 中 


的 链接 ， 





讨论 在 实际 使 用 中 更 好 的 算法 。) 





RUnit 没有 内 置 的 checkWarning 函数 来 测试 警告 。 要 测试 一 个 警告 是 否 已 被 抛 出 ， 我 们 
需要 一 个 技巧 : 把 warn 选项 设置 为 2， 使 警告 变 成 错误 ， 然 后 当 测 试 函数 退出 时 使 用 
on.exit 恢复 其 原始 值 。 记 得 on.exit 内 的 代码 在 函数 退出 时 总 会 运行 ， 不 管 它 是否 成 功 完 
成 或 抛 出 一 个 错误 : 














test.log.minus1.throws_warning <- function() 


{ 








旦 序 设计 | 275 





old_ops <- options(warn = 2) # 警 告 变 成 错误 
on.exit(old_ops) # 回复 原 有 行为 
checkException( log(-1)) 





} 


16.5.2 testthat 

虽然 testthat 具有 不 同 的 语法 ,但 其 原理 几乎 相同 。 主 要 的 区 别 在 于 : 不 是 每 个 测试 都 是 
一 个 函数 ， 它 是 通过 调用 包 中 的 某 个 expect_* 函数 。 例 如 ，expect_equal 相当 于 Runit 的 
checkEqualsNumeric 函数 。 翻 译 过 来 的 测试 (也 在 Learningr 包 的 tests 目录 中 ) 看 起 来 


是 这 样 : 





library(testthat) 

expect_equal(hypotenuse(3, 4), 5) 

expect_error(hypotenuse()) 

expect_equal(hypotenuse(1e-300, 1e-300), sqrt(2) * 1e-300, tol = 1e-305) 
expect_equal(hypotenuse(1e300, 1e300), sqrt(2) * 1e300) 


为 了 运行 它 ， 我 们 需要 调用 test_file 函数 ， 其 参数 为 包含 测试 用 例 的 文件 名 ; 或 调用 
test_dir， 其 参数 为 测试 用 例 所 在 的 目录 的 路 径 。 因 为 只 有 一 个 文件 ， 所 以 使 用 test_file: 














filename <- System.fiLe( 


"tests", 
"testthat_hypotenuse_tests.R", 
package = "Learningr" 


test_file(filename) 


## ..12 

Be 

## 1. Failure: (unknown) -------- 2-2-2 e rere eee rere eee ee 
## Learningr: :hypotenuse(1e-300, 1e-300) not equal to sqrt(2) * 1e-300 

## Mean relative difference: 1 

## 

## 2. Failure: (unknown) --------------- eee reer eee e reer eee ee 
## Learningr: :hypotenuse(1e+300, 1e+300) not equal to sqrt(2) * 1e+300 

## Mean relative difference: Inf 


运行 此 测试 有 两 种 方法 : 一 是 使 用 test_that 在 命令 行 或 者 说 看 似 更 像 是 复制 和 粘贴 ) 
测试 代码 ， 另 一 种 是 test_package， 在 一 个 包 中 运行 所 有 测试 ， 这 会 使 测试 没有 输出 的 函 


与 RUnit 不 同 ， 警 告 可 以 直接 通过 expect_warning 测试 : 


expect_warning(Log(-1)) 





16.6 ”魔法 

我 们 使 用 文本 编辑 器 所 编写 的 源 代 码 只 不 过 是 一 堆 字 符 串 。 当 我 们 运行 代码 时 ，R 需要 解 
读 一 下 这 些 字 符 串 再 执行 相应 的 操作 。 这 个 过 程 首先 从 把 字符 串 变 成 若干 的 语言 变量 类 型 
开始 。 有 了 时 我 们 可 能 要 逆转 此 过 程 ， 即 把 语言 变量 转换 为 字符 串 。 

















这 两 种 任务 都 是 比较 高 级 的 话题 ， 就 像 一 种 黑暗 魔法 。 正 如 每 一 部 电影 中 的 魔法 一 样 ， 如 
采 使 用 前 没有 理解 清楚 ， 你 最 终 会 承受 糟糕 的 、 意 料 之 外 的 结果 。 另 一 方面 ， 这 里 有 一 些 
秘密 武器 ， 使 用 它们 须 谨 慎 且 有 见地 。 


16.6.1 将 字符 串 转 换 成 代码 
每 当 你 在 命令 行 中 输入 一 行 代 码 时 ，R 会 把 这 个 字符 串 转 换 成 它 能 理解 的 东西 。 以 下 是 一 
个 简单 的 反正 切 函 数 的 调用 ， 


atan(c(-Inf, -1, 0, 1, Inf)) 




















## [1] -1.5708 -0.7854 0.0000 0.7854 1.5708 
可 以 通过 使 用 quote 函数 来 慢 镜 头 细 看 这 行 代码 到 底 发 生 了 什么 。quote 接受 一 个 像 上 
面 一 行 的 函数 作为 输入 参数 ， 并 将 返回 一 个 call 类 的 对 象 ， 它 代表 一 个 尚未 进行 计算 
(unevaluated) 的 函数 调用 的 对 象 : 

(quoted_r_code <- quote(atan(c(-Inf, -1, 0, 1, Inf)))) 

## atan(c(-Inf, -1, 0, 1, Inf)) 

class(quoted_r_code) 

## [1] "call" 
接 下 来 ，R 将 对 此 调用 进行 计算 。 可 使 用 eval 函数 来 模仿 此 步骤 : 

eval(quoted_r_code) 

## [1] -1.5708 -0.7854 0.0000 0.7854 1.5708 


一 般 情 况 下 ， 为 执行 你 键入 的 代码 ，R 会 运行 类 似 eval(quote(the stuff you typed at 
the command line)) AYA. 


为 了 更 好 地 了 解 call 类 型 ， 把 它 转换 成 一 个 列表 : 


as.list(quoted_r_code) 


## [[1]] 
## atan 
## 
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## [[2]] 
## c(-Inf, -1, 0, 1, Inf) 


第 一 个 元 素 是 被 调用 的 函数 ， 其 他 元 素 都 是 我 们 要 传递 给 它 的 参数 。 


记 住 重要 的 是 : ÆR 中 几乎 一 切 都 是 函数 。 这 有 点 夸张 ， 但 像 + 的 运算 符 、switch、if、 
For 的 语言 结构 以 及 分 配 和 索引 都 是 函数 : 





vapply( 
st, if, for, <, OP CID), 
is.function, 
Llogical(1) 

) 


## [1] TRUE TRUE TRUE TRUE TRUE TRUE 
这 样 做 的 结果 是 ， 你 在 命令 行 键入 的 任何 东西 真 的 是 函数 调用 ， 这 是 为 什么 此 输入 会 变 成 
call 对 象 的 原因 。 
我 们 忽 了 一 个 大 圈 说 明 : 有 时 我 们 需 接受 R 代码 文本 ， 然 后 让 R RATE. EKE, Ri] 
已 经 看 到 两 个 函数 对 于 这 种 特殊 情况 完全 就 是 这 样 做 的 : assign 接受 一 个 字符 串 ， 并 使 用 
该 名 称 将 值 指派 给 一 个 变量 ， 与 之 相反 ，get 从 一 个 字符 串 输入 中 获取 一 个 变量 。 








除了 分 配 和 获取 变量 之 外 ， 我 们 偶尔 可 能 还 需要 接受 任意 R 的 代码 文本 并 从 R 中 执行 它 。 
你 可 能 已 经 注意 到 ， 当 使 用 quote 函数 时 ， 我 们 只 是 直接 把 R 代码 敲 进去 而 没有 把 它 括 
在 括号 内 。 如 果 输 入 的 是 一 个 字符 串 (例如 一 个 长 度 为 一 的 字符 向 量 )， 问 题 会 稍微 不 同 : 
我 们 必须 “解析 ”字符 串 。 当 然 ， 这 要 通过 parse 函数 来 完成 。 








parse 返回 一 个 expression 对 象 而 不 是 一 个 调用 。 不 用 紧张 ， 其 实 expression 基本 上 就 是 
一 个 调用 列表 。 








调用 和 表达 式 的 本 质 是 很 深奥 的 ， 就 像 黑 上 暗 魔 法 一 样 。 当 你 用 R 大 玩 “ 起 死 
N i 回 生 ”之 术 时 ， 我 可 不 为 接 下 来 的 “僵尸 覆灭 ”负责 。 如 果 你 对 这 些 奥秘 有 
”兴趣 ， 请 阅读 随 R 附带 的 R Language Definition 手册 中 的 第 6 章 














当 以 这 种 方式 调用 parse 时 ， 必 须 明 确 声 名 text 参数 : 


parsed_r_code <- parse(text = “atan(c(-Inf, -1, 0, 1, Inf))") 
class(parsed_r_code) 


## [1] "expression" 
使 用 eval 来 计算 引用 的 R 代码 : 
eval(parsed_r_code) 


## [1] -1.5708 -0.7854 0.0000 0.7854 1.5708 
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这 种 与 字符 串 混合 计算 的 小 技巧 比较 好 用 ， 但 由 此 产生 的 代码 通常 是 脆弱 和 
ED 难于 调试 的 ， 使 你 的 代码 难以 维护 。 这 就 是 我 上 面 提 到 “ 便 户 覆灭 ”的 含义 。 























16.6.2 ”把 代码 转换 成 字符 串 

有 时 ， 我 们 要 解决 的 问题 正好 相反 ， 即 把 代码 转换 成 为 字符 串 。 最 常见 的 场景 是 为 了 把 变 
量 的 名 称 传递 给 函数 。base 包 中 的 直方 图 绘图 函数 hist 包含 一 个 默认 的 标题 ， 它 能 告诉 
你 数据 变量 的 名 称 : 








random_numbers <- rt(1000, 2) 
hist(random_numbers) 


我 们 也 可 以 自己 重新 实现 这 个 功能 ， 只 需 使 用 两 个 函数 : substitute 和 deparse. substitue 
接受 一 些 代 码 并 返回 一 个 语言 对 象 。 这 通常 会 是 一 个 call 对 象 ， 正 如 我 们 使 用 quote 所 创 
建 的 一 样 ， 但 偶尔 也 会 是 一 个 name 对 象 ， 它 是 一 种 能 保存 变量 名 的 特殊 类 型 。( 不 用 担心 
其 中 的 具体 细节 ， 本 节 被 称 为 “魔法 ”并 非 偶 然 。) 











下 一 步 就 是 把 这 个 语言 对 象 转换 为 字符 串 ， 即 所 谓 的 deparsing。 当 你 检查 函数 的 用 户 输 
入 时 ， 此 技术 能 提供 有 用 的 错误 信息 。 让 我 们 来 看 看 deparse-substitue 组 合 在 实际 中 的 
效果 : 














divider <- function(numerator, denominator) 


if(denominator == 0) 
{ 
denominator_name <- deparse(substitute(denominator)) 
warning("The denominator, ", sQuote(denominator_name), ", is zero.") 


numerator / denominator 

} 

top <- 3 

bottom <- 0 

divider(top, bottom) 

## Warning: The denominator, 'bottom', is zero. 

## [1] Inf 
substitute 在 与 eval 一 起 使 用 时 还 有 另 一 项 技巧 。 给 eval 传递 一 个 环境 变量 或 数据 
你 就 可 告诉 R 到 哪里 去 查找 要 计算 的 表达 式 了 。 


举 个 简单 的 例子 ， 我 们 可 以 用 这 一 招来 取得 hafu 数据 集中 Gender 栏 的 水 平 值 ; 


MI 








eval(substitute(levels(Gender)), hafu) 


## [1] "F" "M" 
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这 也 恰恰 是 with 函数 的 工作 原理 : 
with(hafu, levels(Gender)) 


## [1] "F" "M" 





事实 上 ， 有 很 多 函数 都 使 用 了 此 技巧 :subset 在 好 几 个 地 方 都 用 到 它 ，Lattice 图 形 系统 
以 此 技巧 来 解析 公式 。 此 技巧 还 有 一 些 其 他 的 变化 ， 可 参考 Thomas Lumley 的 “Standard 


nonstandard evaluation rules” 。 


16.7 面向 对 象 编程 

到 目前 为 止 ， 我 们 看 到 的 R 程序 大 部 分 都 是 函数 式 编程 风格 的 程序 。 也 就 是 说 函数 是 第 一 
类 对 象 ， 但 是 我 们 通常 会 使 用 一 个 数据 分 析 脚 本 来 逐 行 运行 它们 。 

在 某 数 情况 下 ， 使 用 面向 对 象 编程 《OOP) 是 非常 有 用 的 。 这 意味 着 数据 和 被 允许 操作 的 
国 数 将 被 存储 在 类 的 内 部 。 在 管理 大 型 复杂 的 程序 时 ， 这 和 是 一 个 很 好 的 工具 ， 而 且 特别 适 
合 于 GUI 的 开发 (FER 或 其 他 地 方 )。 有 关 此 主题 的 更 多 内 容 请 参考 Michael Lawrence 的 
Programming Graphical User Interface in R ~$, 






































R 有 六 种 不 同 的 面向 对 象 的 系统 。 不 过 不 用 担心 ， 对 于 新 项 目 ， 你 只 需要 其 中 的 
两 种 。 


R 中 内 建 有 三 个 系统 。 


(1) S3 是 一 个 轻 量 级 的 用 于 重 载 函数 例如， 根据 输入 类 型 的 不 同调 用 不 同 版 本 的 函数 ) 
的 系统 。 

(2) S4 是 一 个 功能 完备 的 面向 对 象 系统 ， 但 它 非常 笨重 和 难于 调试 。 所 以 通常 它 只 用 于 
史 遗 留 代 码 中 。 

(3) 引用 类 是 替代 S4 的 现代 系统 。 


还 有 其 他 三 个 系统 可 以 在 插件 包 里 找到 (但 对 于 新 代码 ， 一 般 只 使 用 引用 类 即 可 ) 。 


(1) proto 是 一 个 基于 原型 编程 的 轻 量 级 的 包装 。 
(2) R.oo 把 S3 扩展 为 一 个 完全 成 熟 的 面向 对 象 的 系统 。 
(3) 00P 是 引用 类 的 早期 版 本 ， 现 已 不 存在 。 








F 
































a 


Ya, 
We 在 许多 面向 对 象 的 编程 语言 中 ， 函 数 被 称 为 方法 。 在 R 中 ， 这 两 个 词 是 可 以 
人 

4 











。 互 换 的 ， 但 “方法 ”往往 用 于 面向 对 象 的 上 下 文 。 


RJ 
1 
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16.7.1 an 


有 时 ， 我 们 需 国 数 根 据 不 同 的 输入 类 型 有 不 同 的 行为 。 一 个 典型 的 例子 就 是 print 
函数 ， es 的 变星 给 出 了 不 同样 式 的 输出 。S3 让 我 们 对 不 同类 型 的 变量 调用 不 同 的 函 
数 ， 而 不 必 记 住 每 个 变量 的 名 字 。 


print 函数 非常 简单 一 一 其 实 只 需要 一 行 : 























print 


## function (x, ...) 
## UseMethod("print") 
## <bytecode: 0x0000000018fad228> 
## <environment: namespace: base> 





它 接受 一 个 输入 参数 x (以 及 ...， 甚 中 的 省 略 号 是 必要 的 ) ， 并 调用 Usemethod("print"). 
UseMethod 检查 x 的 类 ， 并 寻找 另 一 个 名 为 print.class_of_x 的 函数 ， 如 果 能 找到 就 调用 
它 。 如 果 找 不 到 ， 它 会 尝试 调用 print.default。 


例如 ， 如 有 果 我 们 想 打印 一 个 Date 变量 ， 只 需 键 入 : 





today <- Sys.Date() 
print(today) 


## [1] "2013-07-17" 
print 将 调用 与 Date 相关 的 函数 print.Date: 
print.Date 


## function (x, max = NULL, ...) 


## { 

## if (is.null(max)) 

#H max <- getOption("max.print", 9999L) 

## if (max < length(x)) { 

## print(format(x[seq_len(max)]), max = max, ...) 
Ht cat(" [ reached getOption(\"max.print\") -- omitted", 
## length(x) - max, "entries ]\n") 

HH } 

## else print(format(x), max = max, ...) 

Ht invisible(x) 

## } 


## <bytecode: 0x0000000006dc19f0> 

## <environment: namespace: base> 
在 print.Date 里 ， 我 们 的 日 期 先 被 转换 为 一 个 字符 向 量 〈 通 过 format), SRA print 7 
再 次 被 调用 。 因 为 没有 print.character 国 数 存 在 ， 所 以 这 时 UseMethod 把 任务 委托 给 
print.defautt， 这 样 我 们 的 日 期 字符 串 就 出 现在 控制 台中 。 
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-E 如 果 一 个 类 的 特定 方法 不 能 被 发 现 ， 且 没有 默认 的 方法 ， 那 么 将 抛 出 错误 。 











你 可 以 使 用 methods 函数 查看 函数 中 所 有 可 用 的 方法 。print 函数 拥有 超过 100 个 方法 ， 
所 以 在 这 里 我 们 只 显示 了 前 儿 个 : 





head(methods(print)) 

## [1] "print.abbrev" "print.acf" "print.AES" 

## [4] "print.anova" "print.Anova" "print.anova. loglm" 
methods(mean) 


## [1] mean.Date mean.default mean.difftime mean.POSIXct mean.POSIXLt 
## [6] mean.times* mean.yearmon* mean.yearqtr* mean.zoo* 

## 

## Non-visible functions are asterisked 





如 果 你 在 函数 名 中 使 用 了 点 号 ， 例 如 data.frame, IRAE S3 中 的 方法 调用 
中 就 可 能 会 混乱 。 例 如 ，print.data.frame 的 意思 可 能 是 一 个 输入 参数 为 
j frame 的 print.data 方法 ， 而 正确 含义 却 是 data.frame 对 象 的 print 方法 。 
因此 ， 对 于 新 的 函数 名 ， 使 用 lower_under_case 或 LowerCamelCase 是 首选 。 


























16.7.2 引用 类 


引用 类 比 S3 和 S4 更 接近 于 经 典 的 OOP 系统 ， 且 对 于 使 用 过 C++ 的 类 及 其 衍生 物 的 人 来 
说 这 会 比较 直观 。 














Wa 

SE) 一 个 类 (class) 是 变量 如 何 被 构建 的 通用 模板 。 对 象 (object) 是 类 的 一 个 
N 特定 实例 。 举 例 来 说 ，1:16 是 numeric 类 的 一 个 对 象 。 

“st 

















x 
ry 





setRefClass 国 数 创建 一 个 类 的 模板 。 以 及 的 术语 来 说 ， 它 就 是 类 生成 器 (class generator) 。 
在 其 他 一 些 语言 中 ， 这 会 被 称 为 一 个 类 工厂 (class factory), 


让 我 们 党 试 构建 一 个 2 维 点 类 来 作为 例子 。 这 样 使 用 setRefclass: 





my_class_generator <- setRefClass( 
"MyClass", 
fields = list( 
# 在 此 定义 数据 变量 
)， 
methods = list( 
# 在 此 定义 操作 数据 的 函数 


initialize = function(...) 





{ 
# 初始 化 是 一 个 特殊 的 函数 
# 它 在 对 象 被 创建 时 调用 。 
} 

) 





) 
我 们 的 类 需要 x 和 y 坐标 来 存储 它 的 位 置 ， 希 望 它们 都 是 数值 类 型 (numeric ) 。 
在 下 例 中 ， 我 们 将 x 和 y 声明 为 数字 : 





Va 


as | 如 果 不 关心 x 和 y 的 类 型 ， 则 把 它们 声明 为 特殊 值 any. 
~ ss 





point_generator <- setRefClass( 
"point", 
fields = list( 
x = "numeric", 
y = "numeric" 
) 3 
methods = list( 
#TODO 
) 
) 


这 意味 着 ， 如 果 我 们 试图 为 它们 分 配 另 一 种 类 型 的 值 就 会 抛 出 错误 。 故 意 限 制 用 户 的 输入 
可 能 听 上 去 有 些 反 常 ， 但 它 能 把 你 从 之 后 可 能 出 现 的 各 种 莫名 其 妙 的 错误 中 拯救 出 来 。 

















接 下 来 ， 我 们 需要 添加 一 个 initialize 方法 。 在 每 次 创建 point 对 象 时 ， 它 都 会 被 调用 。 
此 方法 接受 x 和 y 作为 输入 的 数值 ， 并 将 它们 分 配给 x 和 y 字段 。 有 三 种 比较 有 趣 的 事情 








(1) 如 果 方 法 的 第 一 行 是 一 个 字符 串 ， 那 么 它 会 被 认为 是 此 方法 的 帮助 文本 。 

(2) 全 局 赋值 运算 符 <- 用 于 字段 赋值 。 本 地 分 配 符 (使 用 <-) 只 不 过 是 在 方法 内 创建 局 
部 变量 。 

(3) 最 好 的 做 法 是 不 要 让 initialize 函数 接受 任何 参数 ， 因 为 这 会 使 各 继承 更 容易 一 
我 们 将 在 稍 后 看 到 这 一 点 。 这 就 是 为 什么 x My 参数 会 有 默认 值 的 原因 "。 























通过 使 用 initialize 方法 ， 我 们 的 类 生成 器 现在 看 起 来 是 这 样 : 


point_generator <- setRefClass( 
"point", 
fields = list( 
x = "numeric", 














TE 6: 如 果 你 仍然 感到 困惑 ，NA_real_ 是 一 个 缺失 值 。 通 常 对 于 缺失 值 来 说 我 们 只 用 NA 以 及 让 及 来 判断 它 
所 需要 的 类 型 ， 但 在 这 种 情况 下 ， 因 为 指定 的 字段 必须 是 数字 ， 所 以 我 们 必须 明确 地 说 明 其 类 型 。 
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y = "numeric" 
)， 
methods = list( 
initialize = function(x = NA_real_, y = NA_real_) 


"Assign x and y upon object creation." 
x <<- X 
y << y 


) 
) 





我 们 点 类 生成 器 已 经 完成 ， 所 以 我 们 现在 可 以 创建 一 个 point 对 象 。 每 个 生成 器 都 有 一 个 


用 于 此 目的 的 new 方法 。 作 为 对 象 创建 流程 的 一 部 分 ，new 方法 将 调用 initialize (如 果 




















存在 的 话 ) : 


(a_point <- point_generator$new(5, 3)) 


## Reference class object of class "point" 
## Field "x": 

## [1] 5 

## Field "y": 

## [1] 3 





生成 器 还 有 一 个 能 返回 你 所 指定 的 帮助 字符 串 的 help 方法 : 


point_generator$help("initialize") 


## Call: 

## Sinitialize(x =, y=) 

Be 

## 

## Assign x and y Upon object creation. 





你 也 可 以 通过 把 类 的 方法 包装 在 某 个 其 他 的 函数 里 ， 这 样 就 为 面向 对 象 的 代码 提供 一 个 传 
统 的 接口 。 当 你 把 代码 发 布 给 他 人 ， 又 不 想 教 其 OOP 时 ， 这 种 方法 比较 有 用 : 





create_point <- function(x, y) 


{ 


point_generator$new(x, y) 


} 





目前 ， 此 类 不 太 有 趣 ， 因 为 它 还 不 会 做 任何 事情 。 让 我 们 重新 为 它 定 义 一 些 更 多 的 方法 : 


point_generator <- setRefClass( 
"point", 
fields = list( 
x = "numeric", 
y = "numeric" 
); 
methods = list( 
initialize = function(x = NA_real_, y = NA_real_) 





{ 


"Assign x and y upon object creation." 


X <<- X 
y <<- y 

}, 

distanceFromOrigin = function() 


{ 


"Euclidean distance from the origin" 
sqrt(x ^2 + y ^2) 


}， 
add = function(point) 
{ 
"Add another point to this point" 
x <<- x + pointsx 
y <<- y + point$y 
.self 
} 
) 


) 


这 些 额 外 的 方法 属于 point 对 象 ， 与 属于 类 生成 器 的 new 和 help 不 同 (在 面向 对 象 编程 的 





术语 中 ，new 和 help 是 静态 方法 ) : 


a_point <- create_point(3, 4) 
a_point$distanceFromOrigin() 


## [1] 5 


another_point <- create_point(4, 2) 
(a_point$add(another_point) ) 


## Reference class object of class "point" 
## Field "x": 

## [1] 7 

## Field "y": 

## [1] 6 


除了 new 和 hetp， 生 成 器 类 还 有 几 个 其 他 的 方法 。fieLds 和 methods 能 分 别 列 日 


和 方法 ， 而 lock 则 能 使 一 个 字段 只 读 : 
point_generator$fields() 


Be x y 
## "numeric" "numeric" 


point_generator$methods() 


## [1] "add" "callSuper" 
## [4] "distanceFromOrigin" "export" 

## [7] "getClass" "getRefClass" 
## [10] "initFields" "initialize" 
## [13] "trace" "untrace" 


"copy" 
"field" 


"import" 
"show" 
"usingMethods" 








类 的 字段 
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还 有 一 些 其 他 的 方法 可 以 从 生成 器 对 象 或 实例 对 象 中 调用 。 例 如 show 能 打印 对 象 ，trace 
和 untrace 可 让 你 在 一 个 方法 上 使 用 trace 国 数 ，export 能 把 对 象 转换 为 另 一 个 种 类 型 ， 
而 copy 则 能 生成 拷贝 。 


参考 类 支持 继承 ， 其 子 类 可 扩展 其 功能 。 例 如 ， 我 们 可 以 创建 一 个 新 的 、 包 含 原来 二 维 点 
类 的 三 维 点 类 ， 它 包括 了 一 个 额外 的 z 坐标 。 








类 可 以 使 用 contain 参数 继承 其 他 类 的 字段 和 方法 : 


three_d_point_generator <- setRefClass( 
"three_d_point", 
fields = list( 
z = "numeric" 
)， 
contains = "point", # 这 一 行 让 我 们 继承 
methods = list( 
initialize = function(x, y, z) 
{ 
"Assign x and y upon object creation." 
X <<- X 
y <<- y 
Z <<- Z 
} 
) 
) 


a_three_d_point <- three_d_point_generator$new(3, 4, 5) 

此 时 ，distanceFrom0rigin 函数 是 错误 的 ， 因 为 它 没 有 把 z 维度 考虑 在 内 : 
a_three_d_point$distanceFromOrigin() # 错 了 
## [1] 5 


我 们 需要 重 写 它 ， 使 它 在 新 类 中 赋 以 新 的 意义 。 这 可 通过 把 相同 的 名 称 添加 到 类 生成 器 中 
完成 : 





three_d_point_generator <- setRefClass( 
"three_d_ point", 
fields = list( 
z = "numeric" 
)， 
contains = "point", 
methods = list( 
initialize = function(x, y, z) 


{ 
"Assign x and y upon object creation." 
X <<- X 
y <<- y 
Z <<- Z 
}, 


distanceFromOrigin = function() 





{ 
"Euclidean distance from the origin" 
sqrt(x *2+y%2+2z% 2) 
} 
) 
) 


为 了 使 用 新 的 定义 ， 我 们 需要 重新 创建 我 们 的 点 : 





a_three_d_point <- three d_point generator$new(3, 4, 5) 
a_three_d_point$distanceFromOrigin() 


## [1] 7.071 


有 时 候 ， 我 们 想 要 使 用 父 类 (又 名 超 类 ) 的 方法 。callsuper 方法 正 是 做 这 个 用 的 ， 因 此 
可 ( 低 效 地 ) 重 写 3D distanceFromorigin 代码 为 : 


distanceFromOrigin = function() 

{ 
"Euclidean distance from the origin" 
two_d_distance <- callSuper() 
sqrt(two_d_distance ^ 2 +z ^ 2) 


} 
面向 对 象 编程 是 一 个 很 大 的 话题 ， 即 使 仅 限 于 引用 类 ， 它 完全 可 独立 成 书 。John Chambers 


(S 语言 创建 者 、R 核心 成 员 以 及 参考 类 代码 的 作者 ) 目前 正在 写 一 本 关于 R 的 面向 对 象 编 
程 的 书 。 在 落实 之 前 ，?ReferenceClasses 的 帮助 页 面 是 目前 最 权威 的 参考 类 的 参考 。 














16.8 “小结 


。 R 有 三 种 问题 反馈 层次 : 消息 、 警 告 和 错误 。 

。 把 代码 包括 在 try 或 trycatch 中 能 让 你 更 好 地 控制 错误 处 理 。 

e debug 及 其 相关 函数 能 帮助 你 调试 函数 。 

。 RUnit 和 testthat 包 能 让 你 进行 单元 测试 。 

。 及 程序 包含 了 被 称 为 调用 和 表达 式 的 语言 对 象 。 

。 你 可 以 把 字符 串 转换 成 语言 对 象 ， 反 之 亦 然 。 

。 R 中 有 六 个 不 同 的 面向 对 象 的 编程 系统 ， 但 对 于 新 项 目 只 需要 S3 和 引用 类 。 


16.9 ”知识 测试 : 问题 
。 问题 16-1 
如 果 你 的 代码 生成 了 超过 10 个 的 敬告， 你 会 使 用 什么 国 数 来 查看 它们 ? 




















。 问题 16-2 
如 果 错 误 被 抛 出 ， 调 用 try 的 返回 值 类 型 是 什么 ? 
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问题 16-3 
要 在 RUnit 测试 中 测试 一 个 错误 是 否 被 正确 抛 出 ， 你 可 以 调用 checkException 函数 。 
在 testthat 中 与 之 相等 的 函数 是 什么 ? 








问题 16-4 
你 需要 使 用 哪 两 个 函数 在 命令 行 中 模仿 代码 的 执行 ? 





问题 16-5 
怎么 做 才能 让 你 的 print 函数 对 不 同类 型 的 输入 做 不 同 的 事情 ? 


16.10 知识 测试 : 练习 


练习 16-1 
调和 平均 值 被 定义 为 数据 的 倒数 的 平均 值 的 倒数 ， 即 1 / mean(1 / x), P x 为 正 数 。 
编写 一 个 调和 平均 函数 ， 当 输入 不 是 数字 或 含有 非 正 数值 ， 它 能 提供 适当 的 反馈 。[10] 














练习 16-2 

使 用 Runit 或 testthat 为 你 的 调和 平均 值 国 数 编写 一 些 测 试 。 你 应 该 检查 : 1、2 和 4 
这 几 个 数 的 调和 平均 数 应 该 等 于 12/7; 没有 输入 时 应 该 抛 出 一 个 错误 ， 传 递 缺失 值 应 
该 表现 正常 ， 对 于 非 数 字 和 非 正 数 输入 也 应 该 与 期 望 相同 。 继 续 测试 ， 直 到 所 有 的 测试 
都 通过 ! [15] 

练习 16-3 

修改 你 的 调和 平均 值 函 数 ， 使 其 返回 一 个 harmoinc 的 类 。 现 在 ， 为 此 类 编写 一 个 S3 的 
print 方法 ， 使 它 能 显示 “The harmonic mean is y” 的 消息 ， 其 中 y 是 调和 平均 值 。[10] 
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R 的 成 功 在 于 它 的 社区 。R 的 核心 团队 工作 很 出 色 , 但 重要 的 是 ， 大 多 数 的 R 代码 是 由 用 
户 们 编写 的 。 在 本 章 中 ， 你 将 学 习 如 何 创 建 自己 的 软件 包 以 及 如 何 与 你 的 同事 、 朋 友和 更 
广阔 的 外 部 世界 分 享 你 的 代码 。 即 使 你 是 一 个 不 喜欢 分 享 、 独 自 工作 的 隐士 ， 包 也 是 一 个 
能 帮助 你 组 织 代码 的 好 工具 。 


17.1 本 章 目标 
阅读 本 章 后 ， 你 会 了 解 以 下 内 容 ， 


。 如 何 创建 一 个 包 ， 
。 如 何 为 包 中 的 函数 和 数据 集 撰写 文档 ， 
。 如 何 把 包 发 布 到 CRAN 上 去 。 


17.2 为 什么 要 创建 软件 包 


要 分 享有 程序 ， 使 其 能 被 他 人 重用 (或 仅 你 自己 )， 最 自然 的 方式 是 将 它 打 包 。 根 据 我 的 
经 验 ， 很 多 R 的 用 户 没 有 尽早 学 习 如 何 创建 自己 的 包 ， 觉 得 它 高 不 可 攀 。 而 实际 上 ， 它 非 
常 简 单 ， 只 要 你 按照 预先 定好 的 规则 来 做 即 可 。 这 些 规则 都 记录 在 R 随 附 的 名 为 Writing 
R Extensions 的 手册 上 。 如 果 出 了 错 ， 总 能 在 那些 文档 中 找到 答案 。 


17.3 FREE 


构建 包 需 要 一 堆 运行 在 Linux 和 其 他 Unix 系列 平台 上 的 标准 工具 ， 不 过 没有 Windows 平 
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台 。 所 有 的 工具 都 被 收集 在 一 个 链接 中 ， 可 在 http://cran.r-project.org/bin/windows/Rtools 
(或 离 你 最 近 的 CRAN 镜像 的 bin/windows/Rtools 目录 中 ) 找到 它们 。 为 了 使 安装 更 加 容 
易 ， 你 可 以 使 用 instaLtLr 包 中 install.Rtools. 


当 安 装 东西 时 ， 你 可 能 会 需要 devtools 和 roxygen2 包 : 


install.packages(c("devtools", "roxygen2")) 


17.4 包 目 录 结 构 


创建 一 个 包 基本 上 就 是 要 把 正确 的 文件 放 在 正确 的 地 方 。 在 你 的 包 目 录 下 ， 有 两 个 文件 是 
必须 的 : 














(1) DESCRIPTION 包含 了 有 关 包 的 版 本 、 作 者 及 其 用 途 。 
(2) NAMESPACE 说 明 哪些 函数 将 被 输出 (给 用 户 ) 。 

















其 他 三 个 文件 是 可 选 的 : 


(1) LICENSE (或 LICENCE， 这 取决 于 你 站 在 哪个 阵营 ) 包含 了 包 的 许可 证 。 
(2) NEWS 即 新 闻 信 息 ， 在 此 你 可 以 记录 所 有 你 所 做 出 的 、 令 人 激动 的 更 新 信息 。 
(3) INDEX 包含 了 包 中 所 有 有 趣 的 东西 的 名 称 和 描述 。 























如 果 你 对 要 编写 所 有 的 五 个 管理 文件 感到 焦虑 ， 请 先 深 呼吸 一 下 。 其 实 NAMESPACE 和 
INDEX 完全 是 自动 生成 的 ， 而 DESCRIPTION 是 部 分 自动 生成 的 。 而 且 ， 如 果 你 只 使 用 几 
种 常用 且 标准 的 许可 ， 那 么 就 不 需要 许可 证 文件 了 。 
































在 顶层 必须 包含 两 个 目录 : 


(DR 目录 包含 你 的 R 程序 。 
(2) man 目录 包含 了 帮助 文件 。 


还 有 一 些 可 选 的 目录 : 


(1) sre 包含 C、C++ 或 Fortran 的 源 代 码 。 

(2) demo 包含 可 由 R 的 demo 国 数 运行 的 演示 代码 。 

(3) vignettes 包含 较 长 的 文档 ， 它 将 解释 如 何 使 用 该 程序 包 ， 这 可 以 通过 browseVignettes 
来 查 到 。 

(4) doc 中 包含 其 他 格式 的 帮助 文件 。 

(5) data 包含 数据 文件 。 

(6) inst 包含 其 他 的 任何 东西 。 

















注 1: NEWS 非常 令 人 讨厌 ， 你 将 总 是 忘记 更 新 它 。 
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第 一 个 可 选 的 目录 已 经 超出 了 本 节 关 于 快速 创建 包 的 范围 。 在 三 种 编译 语言 中 ，C++ 最 
容易 和 R 一 起 使 用 ， 这 要 归功 于 Rcpp 包 (参见 Dir Eddelbuettel 的 Seanless R and C++ 
Integration with RCpp)。 创 建 Vignettes 并 不 难 ， 特 别 是 如 果 你 使 用 了 knitr 包 (请 阅读 
Yihui Xie 的 Dynamic Documents with R and Knitr) 。 

















data 文件 可 以 通过 data 函数 得 到 的 文件 〈 正 如 我 们 在 12.2 节 所 看 到 的 )。 它 们 的 首选 格式 
是 .RData 文件 ， 即 调用 save 的 结果 ， 虽 然 其 他 格式 也 是 可 以 的 。 


虽然 inst 是 一 个 可 以 包含 任何 东西 的 文件 夹 ， 但 它 也 可 以 包含 一 些 标准 的 内 容 : 


























(1) inst/test 含有 你 的 RUnit 或 testthat 测试 。 

(2) inst/python、inst/matlab 和 inst/someotherscriptinglanguage 包含 其 他 脚本 语言 代码 。 (三 
种 已 经 支持 的 编译 语言 则 位 于 src 目录 下 ， 如 前 所 述 )。 

(3) 你 可 以 在 CITATION 文件 中 描述 希望 包 如 何 被 引用 ， 虽然 这 些 信息 通常 从 描述 文件 中 
自动 生成 。 


17.5 你 的 第 一 个 包 


好 了 ， 理 论 谈 到 这 里 为 止 ， 让 我 们 来 试 着 生成 一 个 包 吧 。 首 先 我 们 需要 包括 一 些 东 西 
上 一 章 的 hypotenuse 函数 就 很 好 。 为 了 演示 如 何 把 数据 包含 到 包 里 面 ， 我 们 使 用 了 一 些 毕 
达 哥 拉 斯 三 元 组 : 












































hypotenuse <- function(x, y) 
{ 
sqrt(x ^2 + y ^2) 
} 
pythagorean_triples <- data.frame( 
X = c(3). 5; 8, 75 95 LL 12 13, 155 16, 173 19), 
y c(4, 12, 15, 24, 40, 60, 35, 84, 112, 63, 144, 180), 
z c(5, 13, 17, 25, 41, 61, 37, 85, 113, 65, 145, 181) 
) 


那么 现在 我 们 应 该 创建 一 些 目录 ， 以 记录 东西 放 在 哪儿 ， 对 吗 ? 事实 上 ， 不 用 这 么 复杂 。 
package.skeleton 函数 能 创建 (几乎 ) 所 有 我 们 需要 的 东西 。 它 的 第 一 个 参数 是 包 的 名 字 
(“pythagorus” 就 挺 好 ) ， 第 二 个 参数 是 一 个 字符 向 量 ， 里 面包 含 你 要 添加 的 变量 名 : 























package. skeleton( 

"pythagorus", 

c("hypotenuse", "pythagorean_triples") 
) 


运行 package.skeleton 将 创建 R、man 和 data H 3¢, DESCRIPTION 41) NAMESPACE X 
件 ， 以 及 一 个 名 为 Read-and-delete-me 的 文件 ， 它 包含 了 进一步 的 说 明 。 其 输出 如 图 17-1 
所 示 。 
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> package.skeleton ( 


+ "pythagorus", 
+ c("hypotenuse", "pythagorean_triples") 
uR. 


Creating directories ... 

Creating DESCRIPTION ... 

Creating NAMESPACE ... 

Creating Read-and-delete-me ... 

Saving functions and data ... 

Making help files ... 

Done. 

a steps are described in './pythagorus/Read-and-delete-me'. 
> 











17-1: 使 用 package. skeleton 创建 pythagorus 包 


DESCRIPTION 文件 有 一 个 严格 的 结构 Name: value 对 。 我 们 只 需要 更 新 Title. Author, 
Maintainer, Description fil License 字段 为 合适 的 内 容 。 基 本 的 文件 格式 ， 由 package. 
skeleton 创建 的 ， 如 图 17-2 所 示 











|DescRIeTION | 

ı Package: pythagorus 

2 Type: Package 

sTitle: What the package does (short line) 

«Version: 1.0 

sDate: 2013-05-13 

«Author: Who wrote it 

7Maintainer: Who to complain to <yourfault@somewhere.net> 
s Description: More about what it does (maybe more than one line) 
s License: What license is it under? 

10 











17-2; 由 package.skeleton 创建 的 DESCRIPTION 文件 


License 字段 必须 是 一 个 文件 (本 例 中 必须 包括 一 个 LICENSCE 或 LICENSE)、“Unlimited” 
(没有 限制 ) 或 者 以 下 标准 许可 之 一 : GPL - 2、GPL-3、LGPL-2、LGPL-2.1、LGPL-3、 
AGPL-3, Artistic-2.0, BSD_2 _clause、BSD 3 clause 或 MIT, 


NAMESPACE 文件 包含 了 文本 exportPattern("^[[:alpha:]]+")。 它 的 意思 是 “任何 命名 
以 字母 开头 的 变量 都 可 以 给 用 户 用 "。 现 在 流行 的 最 佳 实践 是 为 每 个 你 想 要 提供 的 变量 写 
一 个 export 语句 ， 而 不 是 指定 一 个 模式 。 





我 们 将 在 下 一 节 看 到 NAMESPACE 如 何 被 自动 创建 ， 现 在 要 把 其 中 的 文本 替换 成 


export(hypotenuse)。 


So 
aH 





man 目录 包含 了 一 些 自动 生成 的 .Rd 文件 : 一 个 用 于 每 个 国 数 ， 一 个 用 于 每 个 数据 集 ， 还 有 
一 个 文件 命名 为 pythagorus-package.Rd。 一 旦 包 被 建立 起 来 ， 这 些 包含 了 LaTeX 标记 的 .Rd 
文件 将 被 用 于 创建 帮助 页 面 。pythagorus-package.Rd 文件 包含 了 整个 包 的 帮助 页 面 ， 你 可 以 
在 那里 介绍 包 的 其 余部 分 的 内 容 。 如 图 17-3 所 示 ， 这 是 一 自动 生成 的 .Rd 文件 的 例子 。 





























和 


2 \alias{hypotenuse} 
3%- Also NEED an '\alias' for EACH other topic documented here. 
4 \title{ 
s%% ~~function to do ... ~~ 
€ 
} 
7\description{ 
2%% ~~ A concise (1-5 lines) description of what the function 
æ does. ~~ 
s} 
10 \usage{ 
u hypotenuse(x, y) 
12 } 
12%- maybe also 'usage' for other objects documented here. 
14 \arguments{ 
15 \item{x}{ 
16 %% ~~Describe \code{x} here~~ 
17 
} 











图 17-3: 为 hypotenuse 函数 自动 生成 的 帮助 页 面 的 源 文件 


虽然 基本 格式 已 经 被 自动 创建 出 来 ,但 是 R 不 知道 函数 到 底 是 什么 ， 你 需要 手动 填写 一 些 
细节 。 对 此 有 两 种 方法 ， 一 种 比较 难 ， 而 另 一 种 简单 些 ， 下 节 将 讨论 后 者 。 


17.6 为 包 撰 写 文档 


把 函数 的 帮助 页 面 放 在 不 同 目录 的 最 大 的 问题 是 很 容易 使 内 容 不 同步 。 这 方面 的 一 个 典型 
例子 是 当 你 要 添加 、 删 除 或 重 命名 函数 参数 时 ，R 不 能 自动 更 改 相 应 的 帮助 文件 来 匹配 函 
数 的 更 改 ， 你 必须 同时 修改 两 个 文件 才能 确保 它们 之 间 能 一 直 保持 更 新 同步 。 


roxygen2 包 通 过 让 你 在 R 的 代码 注释 中 直接 使 用 帮助 文本 解决 了 这 个 问题 。 它 还 能 通过 使 
一 个 简单 的 标记 语言 ， 大 大 减少 了 对 LaTeX 知识 的 依赖 。roxygen2 继承 自 Doxygen， 它 
是 一 个 能 生成 类 似 C++. C, Java, Fortran, Python 和 其 他 语言 文档 的 工具 。 它 的 语法 非 

常 值得 学 习 ， 使 你 能 为 其 他 许多 语言 生成 文档 。 




















roxygen2 标记 的 每 一 行 以 #' 开头 。 有 些 部 分 ， ee 是 通过 它们 在 广 释 段 的 开 
始 位 置 来 标记 。 其 他 部 分 则 以 关键 字 标 注 。 例 如 ， 描 述 返 回 值 的 部 分 使 用 ereturn 开头 来 
标注 。 一 个 完整 的 帮助 文本 段 如 下 所 示 : 








#' Help page title 

#' 

#' A couple of lines of description about the function(s). 
#' If you want to include code, use \code{my_code()}. 

#' @param x Description of the first argument. 

#' @param y Description of the second argument. 

#' @return Description of the return value from a function. 
#' If it returns a list, use 

#' \itemizef 
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#! 


#! 


|itemfitem1}{A description of item1.} 
\itemf{item2}{A description of item2.} 
了 
@note Describe how the algorithm works, or if the function has 


any quirks here. 
@author Your name here! 


@references Journal papers, algorithms, or other inspiration here. 


You can include web links like this 

\url{http://www. thewebsiteyouarelinkingto. com} 

@seealso Link to functions in the same package with 

\codef{ | Link{a_function_or_dataset}} 

and functions in other packages with 

\codef{ \ Link[another_package]{a_function_or_dataset}} 

@examples 

#R code run by the example function 

\dontrun{ 

#R code that isn't run by example or when the package is built 


@keywords misc 
@export 


f <- function(x, y) 


} 


#Function content goes here, as usual 


在 上 例 中 ， 有 几 件 事 情 需要 特别 注意 。 


参数 需要 使 用 @parnm RSE. (A “parm” f 
以 如 果 想 在 R 中 把 它 改 为 “arg” 会 带 来 更 多 的 混乱 ， 还 不 如 删除 它 。) @parn SAUE 











着 一 个 空格 、 参 数 名 、 另 一 个 空格 ， 以 及 参数 的 描述 。 


范例 中 的 任何 东西 都 必须 是 合法 的 R 程序 ， 





E 整 个 Doxygen 系统 中 都 是 标准 的 ， 所 











JER 





因为 当 你 构建 软件 包 时 它 会 自动 运行 。 如 果 你 


想 添加 注释 ， 请 使 用 一 个 额外 的 哈 希 符 # (在 现 有 的 用 于 roxygen2 的 #' 号 顶部 ) 来 创建 。 
如 果 你 想 补 充 一 些 失败 情景 下 〈 例 如 演示 创建 文件 时 发 生 错 误 ) 的 范例 ， 可 以 把 它们 包装 
在 一 个 \dontrun{} 块 中 。 


帮助 文件 可 包含 关键 字 ， 但 不 是 所 有 关键 字 都 可 以 。 请 安装 R.oo 包 来 查看 所 有 可 能 值 的 列 
表 ， 并 运行 此 代码 片段 : 








library(R.o00) 
Rdoc$getKeywords() 


(或 者 也 可 以 打开 R.home ("doc") 返回 目录 中 的 KEYWORD 的 文件 。 ) 





添加 @export 关键 字 将 列 出 NAMESPACE 文件 中 的 函数 ， 而 这 意味 着 用 户 应 该 能 够 从 此 包 中 


调用 该 函数 ， 而 不 仅仅 是 一 个 内 部 的 辅助 函数 。 





整个 包 的 描述 文档 位 于 一 个 名 为 packagename-package.R 的 文件 中 。 它 类 似 于 函数 的 文档 ， 








但 可 能 更 容易 撰写 ， 因 为 它 的 内 容 更 加 少 : 
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#' Help page title. Probably the package name and tagline. 

#! 

#' A description of what the package does, why you might want to use it, 
#' which functions to look at first, and anything else that the user 

#' really, absolutely, must look at because you've created it and it is 
#' astonishing. 

#' 

#' @author You again! 

#' @docType package 

#' @name packagename 

#' @aliases packagename packagename -package 

#' @keywords package 





NULL 
函数 文档 中 有 两 处 位 非常 重要 ， 一 个 是 @docType package 行 ， 它 告诉 roxygen2 这 是 整个 包 
的 文档 ， 另 一 个 是 最 后 的 NULL 值 ， 它 的 出 现 是 由 于 技术 的 原因 一 一 如 果 你 忽略 它 就 会 产生 
错误 。 


为 数据 集 撰写 文档 几乎 与 为 整个 包扎 写 文 档 一 样 。 对 此 文档 的 存放 位 置 并 没有 特定 的 标 
准 ， 你 可 以 把 它 追 加 到 包 文 档 后 面 ， 又 或 者 把 它 放 到 一 个 单独 创建 的 packagename-data.R 
文件 中 : 





#' Help page title 

#! 

#' Explain the contents of each column here in the description. 
#' \itemizef 


#' \item{columni}{Description of column1.} 
#' |item{column2}{Description of column2. } 
#' } 

#! 


#' @references Where you found the data. 

#' @docType data 

#' @keywords datasets 

#' @name datasetname 

#' @usage data(datasetname) 

#' @format A data frame with m rows of n variables 
NULL 


和 包 一 样 ， 对 于 数据 集 来 说 有 两 处 很 重要 : 告诉 roxygen2 这 是 函数 文档 的 edocType data 
行 ， 以 及 最 后 的 NULL 值 。 








在 你 为 每 个 函数 、 数 据 集 和 整个 包扎 写 了 文档 之 后 ， 请 调用 roxygenize 国 数 生成 帮助 文 
件 以 及 更 新 NAMESPACE 和 DESCRIPTION 文件 (对 于 某 些 更 喜欢 英 式 拼写 法 的 人 来 说 ， 
可 以 使 用 roxygenize TEAK AR roxygenise) : 








roxygenize("path/to/root/of/package" ) 
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17.7 检查 和 构建 包 


现在 ,你 已 经 创建 了 所 有 必需 的 目录 ,添加 了 R 代码 和 数据 集 ， 并 为 它们 撰写 了 文档 。 你 
马上 就 可 以 开始 准备 建立 你 的 包 了 一 一 最 后 一 个 任务 是 检查 一 切 是 否 正常 ”。 





R 有 一 个 内 置 的 检查 工具 R CMD check， 你 可 以 从 操作 系统 的 命令 行 中 使 用 它 。 它 检查 非 
常 彻底 ， 这 也 是 那些 你 从 CRAN 下 载 的 大 部 分 软件 包 能 实际 工作 的 主要 原因 。 当 然 ， 使 用 
DOS 或 bash 命令 行 就 像 是 还 工作 在 二 十 世纪 一 样 一 一 更 好 的 替代 方法 是 使 用 devtools 包 
中 的 check 函数 ， 它 的 输出 如 图 17-4 所 示 : 




















library(devtools) 
check("path/to/root/of/package") 





> check ("pythagorus") 

Updating pythagorus documentation 

Loading pythagorus 

Writing pythagorean triples.Rd 
"C:/PROGRA~1/R/R-devel/bin/x64/R" --vanilla CMD build \ 


"d:\workspace\pythagorus" --no-manual --no-resave-data 
* checking for file 'd:\workspace\pythagorus/DESCRIPTION' ... OK 
* preparing 'pythagorus': 
* checking DESCRIPTION meta-information ... OK 
* 


checking for LF line-endings in source and make files 

* checking for empty or unneeded directories 

Removed empty directory 'pythagorus/inst' 

* looking to see if a 'data/datalist' file should be added 
* building 'pythagorus 1.0.tar.gz' 











图 17-4: 检查 包 时 的 输出 

这 会 输出 好 几 个 页 面 ， 并 对 某 些 东西 发 出 警告 ,例如 文件 与 相应 的 函数 不 匹配 、 命 名 并 非 
跨 平台 的 、 范 例 无 法 正确 运行 以 及 它 认 为 你 的 编码 风格 过 时 了 。( 好 吧 ， 最 后 一 个 是 编造 
的 ， 但 是 那里 的 确 有 很 多 的 检查 。) 











仔细 阅读 其 输出 并 修正 错误 和 警告 ,然后 再 来 一 次 。 一 旦 你 确信 你 的 包 文件 已 经 没有 错 
误 ， 那 么 你 终于 可 以 构建 它 了 ! 除了 check 以 外 ，R 还 有 一 个 内 置 的 命令 行 版 本 的 build, 
但 是 使 用 devtools 包 里 的 函数 会 容易 得 多 。 你 可 以 选择 构建 成 源 代码 (这样 会 具有 跨 平台 
的 可 移植 性 ， 是 Linux 的 标准 格式 ) 或 二 进 制 (特定 于 你 的 当前 操作 系统 ) : 














build("path/to/root/of/package") 





注 2: 在 此 先 涛 一 盆 冷 水 ， 答 案 通 常 是 :“ 等 等 ， 你 还 有 些 事情 没完 成 。 











成 功 了 ， 你 现在 拥有 了 自己 的 包 ! 不 过 ， 如 果 其 他 人 也 可 以 使 用 你 的 包 ， 那 岂 不 是 更 好 ? 
要 把 你 的 包 发 布 到 CRAN 上 ， 可 以 使 用 devtools 的 release 函数 : 


release("path/to/root/of/package" ) 





它 会 问 你 很 多 问题 ， 以 确保 在 发 布 包 之 前 ， 你 真 的 万 分 肯定 已 完成 了 所 需要 的 事 : 


Lin 

ey 
at 
o 





当 你 把 包 上 传 到 CRAN 时 ，R 核心 成 员 将 检查 你 的 包 是 否 在 构建 时 有 错误 。 
ED 他 们 的 时 间 很 宝贵 ， 所 以 在 把 包 上 传 到 CRAN 之 前 ， 请 务必 确保 你 已 运行 了 
check 函数 并 且 修复 了 所 有 错误 和 警告 。 


17.8 包 的 维护 


函数 对 用 户 来 说 就 像 是 一 个 黑 盒 子 。 他 们 会 给 它 传递 一 些 参 数 然后 函数 也 会 返回 一 些 值 ， 
用 户 不 需要 关心 函数 内 部 发 生 了 什么 (至少 理 论 上 如 此 )。 这 意味 着 ,一 个 函数 的 签名 
( 即 函 数 的 名 称 及 参数 的 顺序 ) 不 应 该 没有 警告 用 户 就 直接 更 改 。R 提供 了 一 些 函 数 能 帮 
助 通知 用 户 签名 已 改变 。 


















































如 果 你 正 计 划 增 加 一 个 新 的 功能 但 还 没有 机 会 实现 它 ， 或 想 提 前 通知 你 的 用 户 此 功能 将 
至 ， 可 以 使 用 .NotYetUsed 函数 。 如 果 用 户 试 图 过 早 地 使 用 它 ， 这 将 抛 出 一 个 错误 或 警告 ， 
理由 是 它 还 不 能 使 用 。 在 下 例 中 ， 我 们 将 为 hypotenuse 函数 添加 一 个 二 维 的 p WER. TEMS 
加 新 的 功能 之 前 ， 我 们 只 需 更 改 其 签名 ， 并 且 在 用 户 尝试 使 用 p 参数 时 抛 出 一 个 错误 : 





hypotenuse <- function(x, y, p = 2) 
if(!missing(p)) 
.NotYetUsed("p") 
ae A2+y%* 2) 
RE 12) # 行为 与 之 前 的 一 样 
## [1] 13 
hypotenuse(5, 12, 1) 
## Error: argument 'p' is not used (yet) 
一 旦 我 们 添加 了 新 的 功能 ， 可 以 删除 .NotYetUsed: 


hypotenuse <- function(x, y, p = 2) 


(x*pt+ty%*p)* (LP) 
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如 果 你 想 添加 一 个 全 新 的 功能 (而 不 仅仅 是 一 个 参数 )， 对 应 的 函数 是 .NotYetImplemented。 
当 你 第 一 次 创建 包 或 添加 一 大 块 功能 时 这 非常 适用 。 编 写 单个 函数 会 非常 耗 时 ， 所 以 当 写 
完 一 些 代码 ， 你 可 能 已 忘记 其 他 本 来 要 添加 的 函数 。 因 此 ， 有 了 时 最 好 是 先 完成 上 层 的 设 
计 ， 然 后 再 逐步 实现 具体 的 底层 细节 。 只 需 简 单 地 为 每 个 函数 先 创 建 一 个 占 位 符 ， 在 函数 
体 中 先 使 用 .NotYetImpLemented 代 赫 。 下 例 中 的 函数 将 会 在 以 后 某 一 天 才 开 始 计算 三 角 
数 ， 不 过 它 现 在 只 会 抛 出 一 个 错误 : 


























triangular <- function(n) 


{ 
.NotYetImpLemented() 


} 


triangular() 


## Error: 'triangular' is not implemented yet 


如 果 你 想 删除 一 个 函数 ， 最 礼貌 的 做 法 是 是 分 阶段 完成 。 第 一 步 是 在 函数 内 添加 一 
个 .Deprecated 的 调用 ， 其 参数 为 它 所 要 替代 的 函数 的 名 称 。 该 函数 的 其 余部 分 应 保持 不 
变 ， 从 而 能 够 保留 现 有 的 行为 : 


hypotenuse <- function(x, y, p = 2) 


.Deprecated("p_norm") 
(x*p+ty%*p)* (1/ p) 
} 
hypotenuse(5, 12) 


## Warning: '‘hypotenuse' is deprecated. Use 'p_norm' instead. See 

## help('"Deprecated" ) 

## [1] 13 
经 过 一 段 适 当 长 的 时 间 一 一 足以 让 你 的 用 户 注意 到 相关 函数 过 时 的 消息 ， 你 就 可 以 改变 函 
数 的 内 容 ， 让 它 调用 .pefunct， 这 将 抛 出 一 个 错误 : 








hypotenuse <- function(x, y, p = 2) 


.Defunct("p_norm") 


} 
hypotenuse(5, 12) 


## Error: 'hypotenuse' is defunct. Use 'p_norm' instead. See help("Defunct") 


17.9 ”小结 


。 包 的 制作 主要 涉及 如 何 按 特定 的 结构 来 组 织 文 件 。 

e package.skeleton 会 为 你 创建 这 种 结构 中 大 部 分 框架 。 
。 roxygen2 包 使 包 的 文档 制作 非常 容易 。 

e devtools 包 使 包 的 检查 和 构建 非常 容易 。 
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。 NotYetImplemented, Deprecated 和 Defunct 能 帮助 你 维护 包 。 


17.10 知识 测试 : 问题 
。 问题 17-1 


R 包 顶 层 目 录 中 的 五 个 文件 有 哪儿 个 是 必须 的 ?这 些 文件 是 DESCRIPTION, INDEX, 
LICENSE, NAMESPACE 和 NEWS, 


。 问题 17-2 
R 包 中 的 八 个 目录 中 哪些 是 必须 的 ? 这 些 目录 是 data、demo、doc、inst、man、R、src 
和 vignettes。 


。 问题 17-3 
为 什么 需要 在 你 的 软件 包 中 包含 一 个 CITATION 文件 ? 





。 问题 17-4 
你 可 以 调用 哪个 函数 从 roxygen2 标记 中 生成 帮助 文件 ? 





。 问题 17-5 
如 何 才 能 比较 礼貌 地 从 包 中 删除 一 个 函数 ? 


17.11 知识 测试 : AY 

。 练习 17-1 
写 一 个 函数 sum_of_squares， 它 能 计算 的 前 n 个 平方 数 之 和 。( 提 示 : 公式 为 n * (n + 
1)*(2*n+1)/6) [5] 


创建 一 个 有 两 列 的 数据 框 squares_data。 其 x 列 应 包含 数字 1 到 10。y WA x 列 中 对 应 
行 的 平方 和 一 这 也 就 是 sum_of_squares(1:10) 的 结果 。[5] 


使 用 package.skeleton 创建 square 包 ， 它 包含 了 sum_of_squares 国 数 和 squares_data 
数据 框 。[5] 

。 练习 17-2 
为 sum_of_squares 国 数 和 squares_data 数据 框 撰写 文档 ， 并 使 用 roxygen2 标记 来 为 整 
个 squares 包扎 写 文档 并 生成 帮助 文件 。 


。 练习 17-3 
使 用 devtools 包 检 查 并 构建 squares 包 。 
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第 三 部 分 





附录 


附录 人 





这 让 事情 


R 有 四 种 不 同 的 函数 能 告 
mode。 对 于 某 些 变量 类 型 ，3 
变 得 有 点 复杂 。 





APERAR, Z 
其 他 三 种 类 型 的 函数 之 一 ,或 只 


RANER I class. 





量 的 类 型 是 什么 ， 即 class, 
es 但 对 于 其 


对 于 绝 大 部 分 你 所 编写 的 代码 ， 你 只 需 关 心 其 class AY. class 








量 是 否 包 





typeof, mode 和 storage.mode 对 各 种 变量 


含 数 字 或 字符 (或 其 他 类 型 ) 。 
调用 is.* 函数 (例如 is.numeric) 中 的 一 个 。 


类 型 返回 的 值 。 


-1; 不 同类 、 类 型 、 模 式 和 存储 模式 之 间 的 比较 


变量 的 属性 














typeof. mode 和 storage. 


他 的 函数 则 有 点 不 同 ， 





唯一 不 能 帮 你 的 是 在 检 
在 这 种 情况 下 ， 你 可 以 使 用 





class typeof mode storage.mode 

Logical logical logical logical logical 
Integer integer integer numeric integer 
Floating Point numeric double numeric double 
Complex complex complex complex complex 
String character character character character 
Raw byte raw raw raw raw 
Categorical factor integer numeric integer 
Null NULL NULL NULL NULL 
Logical Matrix matrix logical logical logical 
Numeric Matrix matrix double numeric double 
Character Matrix matrix character character character 
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( 续 ) 





class typeof mode storage.mode 
Logical Array array logical Logical logical 
Numeric Array array double numeric double 
Character Array array character character character 
List list list list list 
Data Frame data. frame list list list 
Function function closure function function 
Environment environment environment environment environment 
Expression expression expression expression expression 
Call call language call Language 
Formula formula language call language 











在 R 中 ， 向 量 是 具有 长 度 但 没有 维度 的 〈 即 dim 会 返回 NULL) ， 以 及 除了 名 字 以 外 没有 属 
性 的 变量 类 型 。 向 量 类 型 包括 了 数值 、 逻 辑 和 字符 类 型 ， 而 且 还 包括 列表 和 表达 式 。 无 属 
性 的 规则 意味 着 因子 不 是 向 量 。 









































与 向 量 相关 的 是 原子 (atomic) 类 型 。 原 子 表 示 此 类 型 不 可 以 把 相同 类 型 的 其 他 实例 包含 
在 内 。 与 原子 相反 的 类 型 是 递归 (recursive): 列表 就 是 典型 的 例子 ， 因 为 它 可 以 把 其 他 
列表 包含 在 内 。 一 个 对 象 永远 只 能 是 原子 或 递归 的 ， 不 可 能 兼顾 。 











和 矩阵 和 数组 都 是 原子 的 。 











有 些 对 象 被 称 为 语言 对 象 (language objects)。 这 些 变量 类 型 可 被 解析 为 R 程序 运行 。 


i=) 


K A-2 显示 了 is.vector, is.atomic, is.recursive FH is. Language 对 各 种 变量 类 型 的 返 
回 值 。 





表 A-2: 矢量 、 原 子 、 递 归 或 语言 对 象 变量 类 型 的 比较 





is.vector is.atomic is.recursive is. language 
Logical TRUE TRUE FALSE FALSE 
Integer TRUE TRUE FALSE FALSE 
Floating Point TRUE TRUE FALSE FALSE 
Complex TRUE TRUE FALSE FALSE 











Yt 
wl 
= 
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( 续 ) 








is.vector is.atomic is.recursive is. language 
String TRUE TRUE FALSE FALSE 
Raw Byte TRUE TRUE FALSE FALSE 
Categorical FALSE TRUE FALSE FALSE 
Null FALSE TRUE FALSE FALSE 
Logical Matrix FALSE TRUE FALSE FALSE 
Numeric Matrix FALSE TRUE FALSE FALSE 
Character Matrix FALSE TRUE FALSE FALSE 
Logical Array FALSE TRUE FALSE FALSE 
Numeric Array FALSE TRUE FALSE FALSE 
Character Array FALSE TRUE FALSE FALSE 
List TRUE FALSE TRUE FALSE 
Data Frame FALSE FALSE TRUE FALSE 
Function FALSE FALSE TRUE FALSE 
Environment FALSE FALSE TRUE FALSE 
Expression TRUE FALSE TRUE TRUE 
Call FALSE FALSE TRUE TRUE 
Formula FALSE FALSE TRUE TRUE 
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附录 B 


R 中 其 他 可 做 的 事情 





还 有 很 多 R 可 以 做 的 事情 本 书 没有 加 以 介绍 ， 有 的 是 因为 它们 的 需求 比较 小 众 ， 有 的 是 因 
为 过 于 高 级 ， 还 有 的 是 因为 有 关 那 些 主题 已 有 了 非常 好 的 介绍 书籍 。 本 附录 旨 在 告诉 你 如 
何 找到 这 些 资源 。 有 好 几 个 这 里 涉及 的 主题 都 能 在 CRAN Task View (http://cran.r-project. 
org/web/views/) 里 找到 ， 非 常 值得 你 仔细 浏览 。 





你 可 以 在 R 代码 中 使 用 GUI 来 帮助 那些 不 太 懂 技术 的 用 户 。 例 如 ，gwidgets 框架 允许 从 
高 层 访问 儿 个 图 形 工具 包 ， 其 中 包括 tcl/tk、qt、GTK 和 HTML (tcltk/tcltk2, qtbase, 
RGtk2 和 几 个 HTML 生成 器 的 包 也 可 以 进行 底层 访问 )。 参 阅 Michael Lawrence 和 John 
Verzani 的 Programming Graphical User Interface in R 来 获取 更 多 的 信息 吧 。 基 于 Java 的 
deducer 包 提 供 了 一 个 替代 ， 而 RStudio 的 shiny 包 则 使 用 R 来 编写 网 络 应 用 程序 变 得 非常 
简单 。 
你 可 以 通过 .call 函数 调用 编译 语言 的 代码 (如 C、C++ 和 FORTRAN)。 到 目前 为 止 , 使 
用 这 些 语言 的 最 简单 的 方法 是 编写 C++ 的 代码 并 且 与 Rcpp 包 一 起 使 用 。 关 于 此 主题 的 更 
多 信息 ， 请 参阅 Dirk Eddelbuetted 的 Seamless R and C++ Integration with Repp。 














R 是 单线 程 的 ， 不 过 也 有 好 几 种 方法 能 够 让 它 利用 多 核 或 多 台 机 器 来 并 行 运行 你 的 代 
码 。 通 过 使 用 R 中 附带 的 parallel 包 ， 在 符合 POSIX 协议 的 操作 系统 (这 些 操作 系统 
都 不 属于 Windows) 下 ， 你 可 以 直接 用 mclapply 取代 Lappty， 使 之 在 你 机 器 上 的 所 有 内 
核 上 执行 循环 。 通 过 使 用 snow 和 parallel 包 还 可 得 到 基于 套 接 字 的 多 核 集 群 功能 (例如 
MPI, SOCK 或 其 他 )。 你 也 可 以 使 用 RHIPE (http://www.datadr.org/) 和 rmr 包 连 接 到 一 个 
Hadoop 集群 ， 或 使 用 segue 连接 到 Amazon Web Services 下 的 hadoop， 但 注意 这 并 不 适用 于 
Windows 平台 。 更 多 细节 请 阅读 Q.Ethan McCallum 和 Stephen Weston 著 写 的 Parallel R, 
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Revolution R 的 企业 版 具有 内 置 的 一 些 并 行 化 功能 。 


ff 和 bigmemory 包 人 允许 你 把 R 的 变量 存储 到 文件 中 (如 SAS 一 样 )， 这 就 避免 了 内 存 的 限 
制 。 与 此 相关 的 data.table 包 提 供 了 增强 的 数据 框 变量 类 型 ， 它 具有 更 快 的 索引 、 分 配 和 
合并 功能 。 


R 还 有 几 十 个 软件 包 可 用 于 空间 统计 : sp 提供 了 存储 空间 数据 对 象 的 标准 方式 ，maps、 
maptools 和 mapproj 提供 用 于 读 写 地 图 的 辅助 函数 ，spatstat 提供 了 空间 统计 的 函数 (你 
猿 对 了 )， 还 有 OpenStreetMap 能 从 http://openstreetmap.com 检索 光栅 图 像 ， 等 等 。 


最 后 ，R 有 用 于 组 合 代 码 以 及 使 用 常规 文本 输出 到 报告 中 (有 时 也 被 称 为 文学 编程 或 重复 
性 的 研究 ) 的 工具 ， 即 sweave。 它 已 经 由 knitr 包 改 善 和 扩展 ， 它 将 允许 你 使 用 各 种 标 
记 语 言 来 创建 报告 。 事 实 上 ， 本 书 就 是 用 knitr 创建 Asciipoc 标记 ， 从 而 用 于 创建 PDF, 
HTML 和 ebook 的 文档 。Yihui Xie 的 Dynamic Documents with R and knitr 解释 了 如 何 使 用 它 。 























R 的 生态 系统 很 大 ， 并 随 着 时 间 的 推移 变 得 越 来 越 大 。 这 些 可 能 只 是 你 想 探索 的 一 小 部 分 
东西 而 已 ， 请 阅读 一 下 参考 书目 ， 看 是 否 有 令 你 感 兴趣 内 容 。 愉 悦 地 享受 探索 之 旅 吧 ! 
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附录 C 





aes 


问题 1-1 
R 是 S 编程 语言 的 开源 版 本 。 








Hja 1-2 
选项 包括 : 命令 式 、 面 向 对 象 和 函数 式 。 














问题 1-3 

8:27 

问题 1.4 

help.search (这 与 ?? 的 效果 一 样 ) 
问题 1-5 

RSiteSearch 





问题 2-1 

%/% 

问题 2-2 

all.equal (x，pi)， 或 者 更 好 的 答案 是 : isTrue(all.equal(x, pi)) 





问题 2-3 
至 少 下 面 的 两 个 : 


(1) <- 
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2) += 
(3) +<<- 
(4) assign 


。 问题 2-4 

只 是 Inf 和 -Inf 
。 问题 2-5 

O, Inf 和 -Inf 





。 问题 3-1 


numeric, integer 和 complex 


。 问题 3-2 
nlevels 
。 问题 3-3 


as.numeric ("6.283185") 








。 问题 3-4 
summary, head, str, unclass, attributes 或 View 中 的 任意 三 个 。 如 果 你 还 找 出 与 head 
御用 相反 的 一 一 能 打印 出 最 后 儿 行 的 tail 函数 则 能 加 分 。 





。 问题 3-5 
rm(list = ls()) 


。 问题 4-1 

seq.int(0,1,0.25) 
题 4-2 
么 在 创建 矢量 时 使 用 name = value 对 ， 要 么 在 之 后 使 用 names 函数 。 











。 问题 4-3 
正 整 数 的 位 置 检索 ， 负 整数 的 位 置 检索 ， 逻 辑 值 或 元 素 的 名 称 。 


。 问题 4-4 
3*4* 5 = 60 




















。 问题 4-5 
%=% 
。 问题 5-1 





长 度 为 3。 因为 内 部 列表 只 算是 一 个 元 素 ，NULL 元 素 也 是 一 样 。 





308 | 附录 C 


。 问题 5-2 
当 疝 函数 传递 参数 时 、 调 用 formals 时 ， 或 者 在 全 局 环境 变量 .0ptions 里 。 


。 问题 5-3 

你 可 以 在 单方 括号 中 结合 矩阵 式 索 引 和 正 整 数 / 负 整 数 A /字符 来 使 用 。 你 也 可 
以 在 单 或 双 括号 中 结合 列表 样式 索引 中 和 单个 索引 值 使 用 ， 或 者 是 使 用 美元 符号 (5) 
运算 符 。 最 后 ， 你 还 可 以 使 用 subset 函数 。 











问题 5-4 

通过 把 check.names = FALSE 传递 给 data.frame。 

问题 5-5 

可 以 使 用 rbind 添加 到 牌 直 方向 上 ， 使 用 cbind 添加 到 水 平方 向 。 





问题 6-1 

用 户 工 作 区 。 

问题 6-2 

list2env 是 最 好 的 方案 ， 不 过 as.environment 也 适用 。 





器 题 6-3 
只 需要 输入 其 名 称 。 
问题 6-4 


formals、args 和 formaLArgs。 

问题 6-5 

do.call 能 以 列表 的 形式 把 参数 传递 给 函数 。 

本题 7-1 

主要 就 是 format、formatC、sprintf 和 prettyNum。 


器 题 7-2 
使 用 alarm 或 者 把 \a 字符 打印 到 控制 台 。 





问题 7-3 

factor 或 ordered。 

问题 7-4 

该 值 将 被 算 作 缺失 值 (NA) 。 





器 题 7-5 
使 用 cut 来 将 其 分 组 。 





问题 8-1 

如 果 你 传 入 一 个 NA 值 ，if 会 抛 出 一 个 错误 。 
问题 8-2 

Ifelse 将 在 条 件 为 NA 处 返回 NA。 








问题 8-3 
switch 会 基于 字符 或 整 型 参数 有 条 件 地 执行 代码 。 








问题 8-4 
在 你 的 循环 代码 中 插入 关键 字 break, 








问题 8-5 
在 你 的 循环 代码 中 插入 关键 字 next。 

















问题 9-1 
在 各 章 中 讨论 过 Lapply、vapply、sapply、apply、mapply 和 tappty， 亦 简要 提 及 eapply 
和 rapply。 试 试 apropos("apply") 来 查看 它们 所 有 的 列表 。 





问题 9-2 

所 有 这 三 个 函数 都 接受 一 个 列表 ， 并 把 函数 依次 应 用 于 每 个 元 素 上 。 它 们 所 不 同 的 是 
返回 值 。lapply 总 是 返回 一 个 列表 ，vapply 总 是 返回 一 个 由 模板 指定 的 向 量 或 数组 ， 
sapply 的 返回 值 也 一 样 。 











问题 9-3 
rapply 是 递归 的 ， 它 非常 适合 访问 诸如 树 这 样 的 深层 从 套 对 象 。 





问题 9-4 
这 是 一 个 经 典 的 拆 分 一 应 用 一 合并 问题 。 使 用 tapply (或 plyr 包 中 的 某 些 函数 ) 吧 。 











问题 9-5 
类 似 **ply 的 名 称 中 ， 第 一 个 星 号 表示 第 一 个 输入 参数 的 类 型 ， 第 二 个 星 号 表示 返回 值 
的 类 型 。 








辣 题 10-1 
CRAN 是 迄今 为 止 最 大 的 包 库 。 其 他 的 还 有 Bioconductor, R-Forge 和 RForge.net 等 。 
还 可 以 在 GitHub, bitbucket 和 Google Code 上 找到 很 多 包 。 


问题 10-2 


这 两 个 函数 都 能 装载 一 个 包 ， 但 失败 时 Library 会 抛 出 一 个 错误 ， 而 require 则 返回 一 
个 逻辑 值 (让 你 自 定义 错误 处 理 逻 辑 )。 
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问题 10-3 
一 个 包 库 不 过 就 是 你 机 器 上 的 一 个 包含 了 R 包 的 文件 夹 而 已 。 





ale 10-4 
.LibpPaths 能 返回 库 的 列表 。 





问题 10-5 
R ABER IE 浏览 器 一 样 工 作 ， 但 你 可 以 使 用 正 浏 览 器 的 的 internet2.dLL 库 用 于 连接 
互联 网 。 





问题 11-1 
必须 使 用 PosIXct 类 。Date 不 能 存储 时 间 信 息 ， 而 POSIX1t 日 期 则 把 它们 的 数据 存储 为 
列表 ， 这 使 它 不 能 放 入 一 个 数据 框 里 面 。 














问题 11-2 
1970 年 1 月 1 日 开始 的 午夜 。 


可 题 11-3 
"%B %Y" 





问题 11-4 
给 它 加 上 3600 秒 。 例 如 : 


x <- Sys.time() 
x + 3600 
##[1]" 2013-07-17 22:44:55 BST " 


问题 11-5 


周期 会 比较 长 ， 因 为 2016 是 半年 。 一 年 的 持续 时 间 正 是 66 * 60 * 24 * 365 秒 。 对 于 
国 年 来 说 一 年 的 周期 是 366 天 。 

















问题 12-1 
调用 不 带 参 数 的 data 函数 。 





问题 12-2 

read.csv 假设 小 数 点 是 句号 (句点) 以 及 用 逗号 作为 分 隔 符 ， 而 read.csv2 则 假设 小 数 
点 为 逗号 且 以 分 号 为 分 隔 符 。read.csv 用 于 使 用 句号 作为 小 数 点 来 创建 数据 的 区 域 中 
(例如 大 多 数 的 英语 语言 区 域 )。read.csv2 则 用 于 使 用 逗号 作为 小 数 点 来 创建 数据 的 区 
域 中 (例如 大 多 数 的 欧洲 语言 区 域 )。 如 果 你 对 此 不 太 确 定 ， 只 需 在 文本 编辑 器 中 打开 
你 的 数据 文件 。 








问题 12-3 
xlsx 包 中 的 read.xLsx2 国 数 是 首选 ， 不 过 在 同一 个 包 中 还 有 read.xlsx 可 用 。 也 可 以 
于 用 在 其 他 儿 个 包 中 的 不 同 函数 。 

















问题 12-4 
你 可 以 简单 地 把 网 址 传 给 read.csv， 或 使 用 download.file 得 到 一 个 本 地 副本 。 


问题 12-5 
目前 均 支 持 SQLite, MySQL, PostgreSQL 和 Oracle 数据 库 。 








问题 13-1 
使 用 readLines 把 文本 读 取 为 字符 向 量 ， 然 后 调用 str_count 来 计算 此 单词 在 每 行 出 现 
的 数量 ， 最 后 用 SUm 求 总 和 。 





问题 13-2 
with, within, transform 和 mutate 所 有 这 些 函 数 和 标准 的 赋值 函数 一 样 ， 都 允许 操纵 
列 和 把 列 添加 到 数据 框 中 。 


问题 13-3 
是 铸造 (Casting) ， 而 不 是 冻结 ! 





问题 13-4 
使 用 order 或 arrange。 








问题 13-5 
先 定 义 一 个 函数 ， 当 你 有 一 个 正 数 一 例如 ， 当 is.positive <- function(x) x> 0 时 返 
回 TRUE 值 一 然后 调用 Find(is.positive, x). 








问题 14-1 
min 返回 其 所 有 输入 中 的 单个 最 小 值 。pmin 接受 若干 长 度 相同 的 向 量 ， 并 返回 它们 在 每 
个 位 置 上 的 最 小 值 。 








问题 14-2 
通过 pch("plot character") 参数 。 


问题 14-3 
使 用 形式 为 y ~ x 的 公式 。 











问题 14-4 

Aesthetic 指定 一 个 你 能 看 到 变化 的 变量 。 大 多 数 绘 图 会 分 别 为 x 和 y 坐标 取 相 应 的 x 和 
y aesthetic。 你 也 可 以 指定 颜色 或 形状 的 aesthetic (例如 ， 其 中 两 个 以 上 的 变量 会 被 同时 
看 到 )。 
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问题 14-5 

在 本 章 中 所 提 及 的 直方 图 、 箱 线 图 以 及 核 密度 图 均 可 。 还 有 其 他 一 些 古 怪 而 艰 次 的 绘 
图 ， 例 如 没有 提 及 的 小 提琴 图 (violin plot), ve plot), =3€ (bean plot), 
茎 叶 图 (stem-and-leaf plot) 等 。 这 些 图 当中 ， 你 每 猜 中 一 个 ， 就 可 以 获得 100 点 极 
客 分 
































问题 15-1 
先 设置 指定 的 种 子 数 (使 用 set.seed) 以 生成 一 些 随机 数字 ， 然 后 将 种 子 值 重 置 为 原来 
的 值 。 


问题 15-2 

PDF 的 函数 名 字 以 d 开 头 ， 后 面 跟 着 分 布 的 名 称 。 例 如 ，PDF 格式 的 二 项 式 分 布 国 数 
是 dbinom, CDF 函数 以 p 开头 ， 随 后 也 是 分 布 的 名 称 ， 同 样 逆 CDF 函数 也 是 以 q 开头 
随后 跟着 分 布 的 名 称 。 








Hja 15-3 
冒号 表示 变量 之 间 的 交互 。 
jae 15-4 
anova, AIC, BIC 都 是 用 于 模型 比较 的 常见 函数 。 





问题 15-5 
R^2 值 可 以 从 summary(model)$r.squared 中 取得 。 


问题 16-1 

warnings 国 数 可 显示 之 前 的 警告 

问题 16-2 

失败 时 ，try 会 返回 一 个 try-error 类 的 对 象 。 


本题 16-3 
在 testthat 中 相当 于 checkException 的 是 expect_exception。 请 立马 说 出 来 。 





问题 16-4 

quote 把 一 个 字符 串 转 换 成 一 个 调用 ， 然 后 eval 会 计算 它 。 

问题 16-5 

使 用 S3 系统 的 重 载 国 数 。print.foo 函数 将 会 被 foo 类 的 对 象 调 用 。 





器 题 17-1 
DESCRIPTION 和 NAMESPACE 是 必须 的 。 





。 问题 17-2 
man 和 R 在 所 有 软件 包 中 都 是 必须 的 。 如 果 你 要 包括 C、C + + Fortran 的 代码 ， 那 么 
src 也 是 必要 的 。 


。 问题 17-3 


CITATION 文件 让 你 解释 是 谁 编写 以 及 是 谁 维护 包 的 ， 如 果 该 信息 是 太 长 或 太 复 杂 ， 可 
以 放 到 DESCRIPTION 文件 中 。 



































问题 17-4 


roxygenise 或 roxygenize 





。 问题 17-5 
首先 通过 添加 调用 .Deprecated 来 警告 用 户 此 函数 将 过 时 。 然 后 ， 使 用 调用 Defunct 完 
全 替代 函数 体 。 
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练习 1-1 
如 果 你 遇 到 困难 ， 请 咨询 你 的 系统 管理 员 ， 或 者 在 R-help 邮件 列表 上 提问 。 








练习 1-2 
使 用 冒号 操作 符 来 创建 一 个 向 量 ， 然 后 使 用 sd 函数 : 


sd(0:100) 


练习 1-3 
输入 demo(plotmath) 并 按 下 回 车 键 ， 或 者 点 击 图 形 看 看 它 能 提供 什么 。 








练习 2-1 
(1) 简单 的 除法 就 可 以 得 到 倒数 ， 然 后 使 用 atan 计算 反正 切 (arc) : 





atan( 1 / 1:1000 ) 


(2) 使 用 <- 来 给 变量 赋值 : 





XW: - 1:1000 
y <- atan(1/x) 
z <- 1 /tan(y) 
练习 2-2 
对 于 比较 两 个 应 该 包含 相同 数字 的 向 量 ， 通 常 aLL.equalt 就 是 你 所 需要 的 : 





X == Z 
identical(x, z) 
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all.equal(x, z) 
all.equal(x, z, tolerance = 0) 


。 练习 2-3 
包含 在 以 下 三 个 向 量 的 精确 值 可 能 不 同 : 


true_and_missing <- c(NA, TRUE, NA) 
false_and_missing <- c(FALSE, FALSE, NA) 
mixed <- c(TRUE, FALSE, NA) 


any(true_and_missing) 
any(false_and_missing) 
any(mixed) 
all(true_and_missing) 
all(false_and_missing) 
all (mixed) 


。 练习 3-1 


class(Inf) 
class(NA) 
class(NaN) 
class("") 


把 class LAE typeof. mode 和 storage.mode 重复 以 上 例子 。 
。 练习 3-2 


pets <- factor(sample( 
c("dog", "cat", "hamster", "goldfish"), 
1000, 
replace = TRUE 


)) 
head(pets) 
summary(pets) 


建议 转换 为 因子 ， 但 这 并 非 强制 。 
。 练习 3-3 
carrot <- 1 
potato <- 2 


swede <- 3 
ls(pattern = "a") 


你 定义 的 蔬菜 可 能 会 有 所 不 同 。 


e 练习 4-1 
创建 序列 有 几 种 方法 ， 甚 中 包括 冒号 运算 符 。 此 解决 方案 使 用 seq_Len 和 seq_along: 
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n <- seq_len(20) 

triangular <- n * (n +1) / 2 
names(triangular) <- letters[seq_ along(n) ] 
triangular[c("a", "e", "i", "o")] 


练习 4-2 


同样 地 ， 创 建 从 -11 序列 为 0 再 到 11 的 序列 有 许多 种 不 同 的 方法 。abs 能 


绝对 值 : 
diag(abs(seq.int(-11, 11))) 


练习 4-3 


计算 一 个 数 的 


威 尔 金 森 (Wilkinson) 矩阵 有 一 个 有 趣 的 属性 ， 它 们 的 大 部 分 特征 值 几 乎 相等 。21x21 








和 矩阵 是 最 经 常 使 用 的 : 


identity_20_by_21 <- diag(rep.int(1, 20), 20, 21) 
below_the_diagonal <- rbind(@, identity_20_by_21) 
identity_21_by_20 <- diag(rep.int(1, 20), 21, 20) 
above_the_diagonal <- cbind(0, identity_21_by_20) 
on_the_diagonal <- diag(abs(seq.int(-10, 10))) 


wilkinson_21 <- below_the_diagonal + above_the_diagonal + on_the_diagonal 


eigen(wilkinson_21)$values 











练习 5-1 
为 简单 起 见 ， 这 里 我 已 经 手动 指定 哪些 数字 是 平方 。 你 能 想 出 一 个 方法 来 自动 确定 一 个 
数 是 否 为 平方 数 吗 ? 
list( 
"0 to 9" = c(@, 1, 4, 9), 
"10 to 19" = 16, 
"20 to 29" = 25, 
"30 to 39" = 36, 
"40 to 49" = 49, 
"50 to 59" = NULL, 
"60 to 69" = 64, 
"70 to 79" = NULL, 
"80 to 89" = 81, 
"90 to 99" = NULL 
) 


我 们 还 可 以 自动 计算 平方 数 。 以 下 的 cut 国 数 将 创建 不 同 的 范围 组 : 0~9、 





10~19， 依 此 


类 推 ， 然 后 返回 一 个 向 量 ， 指 出 每 个 平方 数 在 哪 一 组 。 然 后 split 函数 把 平方 数 向 量 分 





开 成 一 个 列表 ， 甚 中 每 个 元 素 包含 所 对 应 组 里 的 值 : 


x <- 0:99 

sqrt_x <- sqrt(x) 

is_square_number <- sqrt_x == floor(sqrt_x) 
square_numbers <- x[is_square_number ] 
groups <- cut( 





square_numbers ， 
seq.int(min(x), max(x), 10), 
include. Lowest = TRUE, 
right = FALSE 

) 


split(square_numbers, groups) 
。 练习 5-2 
有 许多 种 不 同 的 方法 可 以 获得 iris 数据 集 的 数值 子 集 。 实 验 一 下 吧 ! 


iris_numeric <- iris[, 1:4] 
colMeans(iris_numeric) 


。 练习 5-3 
这 个 解决 方案 是 许多 对 数据 框 取 索引 和 求 子 集 的 方法 之 一 : 
beaver1$id <- 1 
beaver2$id <- 2 


both_beavers <- rbind(beaver1, beaver2) 
subset(both_beavers, as. logical(activ) ) 


。 练习 6-1 
我 们 可 以 使 用 new.env 创建 一 个 环境 。 之 后 的 语法 与 列表 一 样 : 


multiples_of_pi <- new.env() 
multiples_of_pi[["two_pi"]] <- 2 * pi 
multiples_of_pi$three_pi <- 3 * pi 
assign("four_pi", 4 * pi, multiples_of_pi) 
ls(multiples_of_pi) 

## [1] "four_pi" "three_pi" "two_pi" 


。 练习 6-2 


这 比 你 想象 的 要 更 容易 。 我 们 只 需要 在 除 以 二 时 使 用 模 运 算 符 来 获得 余数 ， 然 后 一 切 就 
能 自动 工作 ， 也 包括 了 非 无 限 值 : 











is_even <- function(x) (x %% 2) == 0 
is_even(c(-5:5, Inf, -Inf, NA, NaN)) 


## [1] FALSE TRUE FALSE TRUE FALSE TRUE FALSE TRUE FALSE TRUE FALSE 
## [12] NA NA NA NA 


。 练习 6-3 
同样 ， 该 函数 只 需要 一 行 妈 可。formals 和 body 函数 能 完成 最 难 的 那 部 分 工作 ， 而 我 们 
只 需要 返回 其 结果 列表 : 





args_and_body <- function(fn) 
{ 

list(arguments = formals(fn), body = body(fn)) 
} 
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args_and_body(var) 


## Sarguments 

## Sarguments$x 

#H 

#H 

## SargumentsSy 

## NULL 

#H 

## SargumentsSna.rm 
## [1] FALSE 


## 

## SargumentsSuse 

## 

BH 

## 

## Sbody 

## { 

#H if (missing(use)) 

## use <- if (na.rm) 

#H "na.or.complete" 

#H else "everything" 

Ht na.method <- pmatch(use, c("all.obs", "complete.obs", 
#H "pairwise.complete.obs", "everything", "na.or.complete")) 
## if (is.na(na.method)) 

#H stop("invalid 'use' argument") 

## if (is.data.frame(x)) 

## x <- as.matrix(x) 

## else stopifnot(is.atomic(x)) 

## if (is.data.frame(y)) 

#H y <- as.matrix(y) 

#H else stopifnot(is.atomic(y)) 

#H .Call(C_cov, x, y, na.method, FALSE) 
## } 


args_and_body(alarm) 


## Sarguments 

## NULL 

## 

## Sbody 

## { 

## cat("\a") 

## flush.console() 
## } 


。 练习 7-1 
formatC(pi, digits = 16) 


## [1] "3.141592653589793" 


如 果 你 要 把 formatc 替换 成 format 或 prettyNum 这 也 适用 。 
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。 练习 7-2 
调用 strsplit 并 使 用 正则 表达 式 来 匹配 空格 和 标点 符号 。 记 得 ? 能 匹配 一 个 字符 : 








# 使 用 一 个 可 选 的 逗号 ， 必 须 的 空格 ， 可 以 的 连 字符 以 及 一 个 可 选 的 空格 分 开 


strsplit (x, ",? -? ?") 














## [[1]] 
## [1] "Swan" "swam" "over" "the" "pond" "Swim" "swan" "swim!" 
## 
## [[2]] 
## [1] "Swan" "swam" "back" "again" "Well" "swum" "swan!" 
# 或 者 把 最 后 的 连 字符 的 空格 括 起 来 
strsplit(x, ",? (- )?") 
## [[1]] 
## [1] "Swan" "swam" "over" "the" "pond" "Swim" "swan" "swim!" 
## 
## [[2]] 
## [1] "Swan" "swam" "back" "again" "Well" "swum" "swan!" 
。 练习 7-3 


默认 情况 下 ，cut 所 创建 的 间隔 只 包括 上 限 而 没有 下 限 。 为 了 获得 最 小 值 (3) 的 计数 ， 
我 们 需要 在 它 下 面 〈 例 如， 在 2) 加 入 一 个 额外 的 断 点 。 尝 试 使 用 plyr 包 中 的 count $ 
换 掉 table: 














scores <- three_d6(1000) 

bonuses <- cut( 
scores, 
€(2;. By 5585, 125. 15, 275. 18), 
labels = -3:3 

) 


table(bonuses) 


## bonuses 
## -3 -2 -1 0 1 2 3 
HH 4 39 186 486 233 47 5 


。 练习 8-1 
使 用 if 区 分 其 条 件 。 运 算 符 %in% 能 使 条 件 的 检查 更 容易 : 


score <- two_d6(1) 
if(score %in% c(2, 3, 12)) 
{ 
game_status <- FALSE 
point <- NA 
} else if(score %in% c(7, 11)) 
{ 
game_status <- TRUE 
point <- NA 
} else 


{ 
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game_status <- NA 
point <- score 


} 


。 练习 8-2 
因为 我 们 不 明确 代码 所 要 执行 的 次 数 ， 所 以 使 用 repeat 循环 是 最 合适 的 : 


>H 





if(is.na(game_status)) 


repeat({ 
score <- two_d6(1) 
if(score == 7) 
{ 
game_status <- FALSE 
break 
} else 
if(score == point) 
{ 
game_status <- TRUE 
break 
} 
}) 


} 
。 练习 8-3 
为 我 们 知道 需要 执行 的 循环 (从 最 短 单词 的 长 度 到 最 长 单词 的 长 度 ) 的 次 数 ，for 循 


环 是 最 合适 的 : 








W 





nchar_sea_shells <- nchar(sea_shells) 


for(i in min(nchar_sea_shells):max(nchar_sea_shells)) 


{ 


message("These words have ", i, " letters:") 
print(toString(unique(sea_shells[nchar_sea_shells == i]))) 


} 


## These words have 2 letters: 


## [1] "by, So, if, on" 

## These words have 3 letters: 

## [1] "She, sea, the, The, she, are, I'm" 
## These words have 4 letters: 

## [1] "sure" 

## These words have 5 letters: 


## [1] "sells" 


## These words have 6 letters: 


## [1] "shells, surely" 





## These words have 7 letters: 


HH 


[1] "" 


## These words have 8 letters: 


## [1] "seashore" 


## These words have 9 letters: 


## [1] "seashells" 


。 练习 9-1 


vapply(wayans, length, integer(1)) 


Shawn 


3 


Vonnie 


0 














Exp Murder 
05 15.1 
31 11.3 
55 7.8 
66 10.1 
71 10.3 
06 6.8 


Exp 


fl] 2state.x77 KE 


HS Grad Frost 


41. 
66. 
58. 
39 
62. 
63. 


## Dwayne Kim Keenen Ivory Damon Kim 
Be 0 5 4 0 
## Marlon Nadia Elvira Diedre 
## 2 0 2 5 
。 练习 9-2 
d) 我 们 可 以 通过 使 用 str, head 和 class 以 及 阅读 帮助 页 1 
此 数据 集 : 
## num [1:50, 1:8] 3615 365 2212 2110 21198 ... 
## - attr(*, "dimnames")=List of 2 
## ..$ : chr [1:50] "Alabama" "Alaska" "Arizona" "Arkansas" ... 
## ..9 : chr [1:8] "Population" "Income" "Illiteracy" "Life 
#H Population Income Illiteracy Life 
## Alabama 3615 3624 2.1 69; 
## Alaska 365 6315 1.5 69, 
## Arizona 2212 4530 1.8 70. 
## Arkansas 2110 3378 1.9 70. 
## California 21198 5114 1.1 T1. 
## Colorado 2541 4884 0.7 725 
He Area 
## Alabama 50708 
## Alaska 566432 
## Arizona 113417 
## Arkansas 51945 
## California 156361 
## Colorado 103766 
## [1] "matrix" 


(2) 现在 我 们 知道 此 数据 是 一 个 入 





我 们 把 2 作为 维度 值 传递 给 它 : 


HH 
## 


Population 


Income 


4246.420 4435.800 


Illiteracy 
1.170 


Life Exp 
70.879 


Murder 
7.378 


HS Grad 
53.108 


7 
1 
9 
6 
9 


3 


20 
152 
15 
65 
20 
166 


由 于 输入 的 是 一 个 列表 ， 输 出 的 始终 相同 而 且 长 度 已 知 ， 所 以 vapply 是 最 好 的 选择 : 


感受 一 


下 


E 阵 ， 因 此 apply 函数 最 合适 。 我 们 要 循环 每 列 ， 因 此 
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## Frost Area 
## 104.460 70735.880 


## Population Income Illiteracy Life Exp Murder HS Grad 
## 4.464e+03 6.145e+02 6.095e-01 1.342e+00 3.692e+00 8.077e+00 
#H Frost Area 
## 5.198e+01 8.533e+04 


。 练习 9-3 
tapply 是 R 基本 包 中 的 最 佳 选择 。 而 plyr 包 中 的 ddply 也 能 很 好 地 工作 : 


with(commute_data, tapply(time, mode, quantile, prob = 0.75)) 
## bike bus car train 
## 63.55 55.62 42.33 36.29 


ddply(commute_data, .(mode), summarize, time_p75 = quantile(time, 0.75)) 
## = mode time_p75 
## 1 bike 63.55 
## 2 bus 55.62 
## 3 car 42.33 
## 4 train 36.29 


。 练习 10-1 
E R 的 图 形 用 户 界面 中 ， 单 击 Package > “Install package(s)... ”， 选 择 一 个 镜像 ， 然 后 
选择 Hmisc。 如 果 下 载 或 安装 失败 ， 则 请 确保 你 有 互联 网 接 入 和 写 入 库 目 录 的 权限 。 你 
也 可 以 尝试 访问 CRAN 的 网 站 来 手动 下 载 。 问 题 中 最 常见 原因 是 权限 受到 限制 ， 在 这 
种 情况 下 请 与 你 的 系统 管理 员 联 系 。 









































。 练习 10-2 
install.packages("Lubridate") 
你 可 能 希望 指定 一 个 库 进行 安装 。 
。 练习 10-3 


installed. packages 函数 能 在 你 的 机 器 上 获取 软件 包 的 详细 信息 及 其 位 置 ( 以 下 的 结果 
可 能 跟 你 机 器 上 的 位 置 不 同 ) : 





pkgs <- installed.packages() 
table(pkgs[, "LibPath"]) 


## 
## C:/Program Files/R/R-devel/library D:/R/library 
Be 29 169 


。 练习 11-1 
此 示例 使 用 strptime 解析 和 使 用 strtime 来 进行 格式 化 ， 除 此 之 外 还 有 其 他 很 多 方法 : 





in_string <- c("1940-07-07", "1940-10-09", "1942-06-18", "1943-02-25") 
(parsed <- strptime(in_string, "%Y-%m-%d") ) 





## [1] "1940-07-07" "1940-10-09" "1942-06-18" "1943-02-25" 
(out_string <- strftime(parsed, "%a %d %b %y")) 


## [1] "Sun 07 Jul 40" "Wed 09 Oct 40" "Thu 18 Jun 42" "Thu 25 Feb 43" 


。 练习 11-2 
?Sys.timezone 帮助 页 面 建议 了 使 用 以 下 代码 导入 时 区 文件 : 

















tzfile <- file.path(R.home("share"), "zoneinfo", "zone.tab") 
tzones <- read.delim( 

tzfile, 

row.names = NULL, 

header = FALSE, 

col.names = c("country", "coords", "name", "comments"), 

as.is = TRUE, 

fill = TRUE, 

comment.char = "#" 


) 


找到 你 所 在 时 区 的 最 佳 方法 取决 于 你 在 哪里 。 从 View(tzones) 开始 ， 如 有 需要 ， 使 用 
subset 来 缩小 搜索 范围 。 























re 


。 练习 11-3 
你 可 以 通过 访问 一 个 基础 R 包 中 的 posixit 日 期 组 件 解决 此 问题 ， 但 是 使 用 Lubridate 
的 month 和 day 函数 会 更 加 清楚 : 








zodiac_sign <- function(x) 
{ 
month_x <- month(x, label = TRUE) 
day_x <- day(x) 
switch( 
month_x, 


Jan = if(day_x < 20) "Capricorn" else "Aquarius", 
Feb = if(day_x < 19) "Aquarius" else "Pisces", 
Mar = if(day_x < 21) "Pisces" else "Aries", 
Apr = if(day_x < 20) "Aries" else "Taurus", 
May = if(day_x < 21) "Taurus" else "Gemini", 
Jun = if(day_x < 21) "Gemini" else "Cancer", 
Jul = if(day_x < 23) "Cancer" else "Leo", 
Aug = if(day_x < 23) "Leo" else "Virgo", 
Sep = if(day_x < 23) "Virgo" else "Libra", 
Oct = if(day_x < 23) "Libra" else "Scorpio", 
Nov = if(day_x < 22) "Scorpio" else "Sagittarius", 
Dec = if(day_x < 22) "Sagittarius" else "Capricorn" 
) 
} 
# 可 如 下 使 用 





nicolaus_copernicus_birth_date <- as.Date("1473-02-19") 
zodiac_sign(nicolaus_copernicus_birth_date) 


## [1] "Pisces" 
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请 注意 ，switch 语句 的 使 用 意味 着 这 个 函数 的 实现 并 非 向 量化 。 你 可 以 通过 大 


E. 


H 


ei! 





ifelse 语句 来 实现 矢量 化 ， 或 采取 更 容易 地 调用 Vectorize(zodiac_sign) 的 方法 。 


练习 12-1 
使 用 system. file 找到 该 文件 并 使 用 read.csv 导入 数据 : 


hafu file <- system.file("extdata", "hafu.csv", package = "learningr") 
hafu_data <- read.csv(hafu file) 


练习 12-2 


使 用 xLsx 包 中 的 read.xLsx2 函数 导入 数据 。 该 数据 在 第 一 个 (也 


而 且 最 好 指定 每 列 的 数据 的 类 型 : 


library(xlsx) 


gonorrhoea_file <- system.file( 


) 


"extdata", 
"multi-drug-resistant gonorrhoea infection.xls", 
package = "learningr" 


gonorrhoea_data <- read.xlsx2( 


) 


练习 12-3 
使 用 RSQLite 包 的 方法 有 好 几 种 。 一 次 一 个 步骤 ， 我 们 可 以 像 这样 连 接 数据 库 : 


library(RSQLite) 


gonorrhoea file, 
sheetIndex 
COLCLasses 


driver <- dbDriver("SQLite") 
db_file <- system.file("extdata", "crabtag.sqlite", package = "Learningr") 
conn <- dbConnect(driver, db_file) 


query <- "SELECT * FROM Daylog" 
head(daylog <- dbGetQuery(conn, query)) 


#H 
## 
## 
## 
#H 
#H 
#H 
## 
## 
## 
#H 
#H 
#H 
## 


NDnuUOBWNPE 


DnunBWNPR 


Tag ID Mission Day 


A03401 
A03401 
A03401 
A03401 
A03401 
AQ3401 


Batt Volts 


3. 
.09 
.09 
.09 


WWW ww 


06 


09 


.09 


mm BRWN PE © 


Date Max Temp Min Temp Max 
25. 
23% 
23% 
23. 
23. 
23. 


08/08/2008 
09/08/2008 
10/08/2008 
11/08/2008 
12/08/2008 
13/08/2008 


27.734 
25.203 
24.016 
26.453 
27.047 
24.625 


203 
859 
500 
281 
609 
438 


c("integer", "character", "character", "numeric" 


FE 


使 用 


唯一 的 ) 工作 表 ， 


Depth Min Depth 


0. 
0. 
-0. 
-0. 
-0. 
-0. 


06 
06 
07 
04 
10 
04 


-0. 
-0. 
-0 
-0. 
-0. 
-0. 


07 
07 


.10 


10 
26 
13 





dbDisconnect(conn) 

## [1] TRUE 

dbUnloadDriver (driver) 

## [1] TRUE 
或 者 放肆 一 些 ， 使 用 在 第 十 二 章 中 定义 的 函数 : 

head(daylog <- query_crab_tag_db('"SELECT * FROM Daylog")) 
或 者 ， 我 们 可 以 使 用 dbReadTable 函数 再 进一步 简化 : 

get_table_from_crab_tag_db <- function(tbl) 

i driver <- dbDriver("SQLite") 


db_file <- system.file("extdata", "crabtag.sqlite", package = "learningr") 
conn <- dbConnect(driver, db_file) 


on.exit( 
{ 
dbDisconnect(conn) 
dbUnloadDriver (driver) 
} 

) 

dbReadTable(conn, tbl) 
} 
head(daylog <- get_table_from_crab_tag_db("Daylog")) 
## Tag.ID Mission.Day Date Max.Temp Min.Temp Max.Depth Min.Depth 
## 1 A03401 0 08/08/2008 27.734 25.203 0.06 -0.07 
## 2 A03401 1 09/08/2008 25.203 23.859 0.06 -0.07 
## 3 A03401 2 10/08/2008 24.016 23.500 -0.07 -0.10 
## 4 A03401 3 11/08/2008 26.453 23.281 -0.04 -0.10 
## 5 AQ3401 4 12/08/2008 27.047 23.609 -0.10 -0.26 
## 6 A03401 5 13/08/2008 24.625 23.438 -0.04 -0.13 
## Batt.Volts 
## 1 3.06 
## 2 3.09 
## 3 3.09 
## 4 3.09 
## 5 3.09 
## 6 3.09 


。 练习 13-1 
(1) 为 了 检测 问号 ， 使 用 str_detect: 


library(stringr) 

data(hafu, package = "learningr") 

hafu$FathersNationalityIsUncertain <- str_detect(hafu$Father, fixed("?")) 
hafu$MothersNationalityIsUncertain <- str_detect(hafu$Mother, fixed("?")) 


(2) 要 替换 这 些 问 号 ， 使 用 str_replace 国 数 : 
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hafuSFather <- str_replace(hafu$Father, fixed("?"), "") 
hafuSMother <- str_replace(hafu$Mother, fixed("?"), "") 


练习 13-2 





请 确保 你 已 经 安装 了 reshape2 包 ! 关键 是 把 测量 变量 命名 为 “Father” 和 “Mother”: 


hafu_Long <- melt(hafu, measure.vars = c("Father", "Mother")) 


练习 13-3 


我 们 可 以 使 用 基础 R 包 中 的 函数 来 完成 ， 例 如 table 函数 能 为 我 们 计数 ，sort 和 head 
的 组 合 可 以 使 我 们 能 够 找到 相同 的 值 。 把 useNA = "always" 传递 给 table 意味 着 NA 将 
始终 包含 在 counts 向 量 中 


top10 <- function(x) 


{ 
counts <- table(x, useNA = "always") 
head(sort(counts, decreasing = TRUE), 10) 
} 
top10(hafus$Mother ) 
## x 
## Japanese <NA> English American French German Russian 
## 120 50 29 23 20 12 10 
## Fantasy Italian Brazilian 
## 8 4 3 


plyr 包 提 供 了 另 一 种 禁 代 的 解决 方案 ， 它 能 把 答案 作为 一 个 数据 框 返 回 ， 这 对 进一步 
操纵 结果 可 能 更 为 有 用 : 


top10_v2 <- function(x) 


{ 


} 


counts <- count(x) 
head(arrange(counts, desc(freq)), 10) 


top10_v2(hafuSMother ) 


## 
#H 
#H 
## 
## 
## 
#H 
#H 
#H 
#H 
## 


x 
1 Japanese 
2 <NA> 
3 English 
4 American 
5 French 
6 German 
v4 Russian 
8 Fantasy 
9 Italian 
10 Brazilian 


。 练习 14-1 
(1) cor 计算 相关 性 ， 并 且 默 认为 Pearson 相关 性 。 对 其 他 类 型 使 用 method 参数 实验 一 下 : 


freq 
120 
50 
29 
23 
20 
12 
10 
8 

4 

3 





with(obama_vs_mccain, cor(Unemployment, Obama) ) 


## [1] 0.2897 
(2) 以 base/lattice/ggplot2 的 顺序 ， 我 们 有 : 


with(obama_vs_mccain, plot(Unemployment, Obama)) 

XypLot(Obama ~ Unemployment, obama_vs_mccain) 

ggplot(obama_vs_mccain, aes(Unemployment, Obama)) + 
geom_point() 


。 练习 14-2 
(1) 直方 图 : 














plot_numbers <- 1:2 
Layout(matrix(plot_numbers, ncol = 2, byrow = TRUE)) 
for(drug_use in c(FALSE, TRUE) ) 
{ 
group_data <- subset(alpe_d_huez2, DrugUse == drug_use) 
with(group_data, hist(NumericTime) ) 


} 


histogram(~ NumericTime | DrugUse, alpe_d_huez2) 


ggplot(alpe_d_huez2, aes(NumericTime)) + 
geom_histogram(binwidth = 2) + 
facet_wrap(~ DrugUse) 





(2) RÉE: 











boxplot(NumericTime ~ DrugUse, alpe_d_huez2) 
bwplot(DrugUse ~ NumericTime, alpe_d_huez2) 


ggplot(alpe_d_huez2, aes(DrugUse, NumericTime, group = DrugUse)) + 
geom_boxpLot() 
。 练习 14-3 

为 简单 起 见 ， 我 们 只 使 用 ggplot2 给 出 此 答案 。 由 于 这 是 一 个 数据 探索 ， 所 以 没有 “ 正 
确 ” 的 答案 : 如 果 图 中 显示 了 一 些 你 感到 有 趣 的 事情 ， 那 么 这 是 值得 画 出 的 。 当 你 有 几 
个 “干扰 因素 ”( 在 本 例 中 ， 我 们 有 年 龄 /种 族 / 性 别 ) 存在 时 ， 对 于 不 同 的 绘图 会 有 
很 多 不 同 的 可 能 性 。 一 般 情况 下 ， 处 理 多 变量 有 两 种 策略 : 先 作 一 个 总 体 概 述 再 添加 变 
量 ; 或 者 一 开始 就 把 所 有 包含 在 内 ， 然 后 再 删除 那些 看 起 来 不 那么 有 趣 的 变量 。 我 们 将 
使 用 第 二 种 策略 。 


要 看 到 每 个 变量 的 影响 ， 最 简单 的 方法 的 是 把 所 有 的 东西 都 放 到 面板 上 : 






































>H 




















ggplot(gonorrhoea, aes(Age.Group, Rate)) + 
geom_bar(stat = "identity") + 
facet_wrap(~ Year + Ethnicity + Gender) 
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每 个 面板 上 的 条 形 高 度 是 不 同 的 ， 特 别 是 种 族 ， 但 是 我 们 很 难 在 50 个 面板 中 看 出 是 怎 
么 回 事 。 我 们 可 以 把 每 年 的 数据 都 画 在 相同 的 面板 来 进行 简化 。 我 们 使 用 group 来 声明 
哪些 值 属于 同一 栏 ， 使 用 FLL 为 每 个 条 形 指定 不 同 的 填充 颜色 ， 还 可 使 用 position = 
"dodge" 把 条 形 彼此 分 开 ， 而 不 是 堆 全 在 一 起 : 
































ggplot(gonorrhoea, aes(Age.Group, Rate, group = Year, fill = Year)) + 
geom_bar(stat = "identity", position = "dodge") + 
facet_wrap(~ Ethnicity + Gender) 





面板 数量 减少 是 好 事 ， 但 我 还 是 觉得 很 难 从 那些 条 形 中 获取 很 多 信息 。 由 于 大 部 分 年 龄 组 
宽度 的 (五 年 ) 相同 ， 我 们 可 以 稍 用 点 手段 : 画 一 条 以 年 龄 为 x 轴 的 线 图 。 虽 然 因为 年 龄 
组 更 宽 一 些 ， 该 图 在 每 个 面板 的 右 侧 看 上 去 有 点 不 对 劲 ， 但 它 已 经 可 以 提供 某 些 信息 了 : 























ggplot(gonorrhoea, aes(Age.Group, Rate, group = Year, color = Year)) + 
geom_line() + 
facet_wrap(~ Ethnicity + Gender) 
该 线 紧 靠 在 一 起 ， 所 以 看 上 去 似乎 并 没有 显示 出 太 大 的 时 间 趋 势 (虽然 时 间 段 正好 是 五 
年 )。 由 于 有 两 种 切面 的 方式 ， 我 们 可 以 通过 使 用 facet_grip 而 不 是 facet_wrap 稍微 改 
善 一 下 绘图 ， 














ggplot(gonorrhoea, aes(Age.Group, Rate, group = Year, color = Year)) + 

geom_line() + 

facet_grid(Ethnicity ~ Gender) 
这 清楚 地 表明 种 族 对 淋病 感染 率 的 影响 : 曲线 要 比 在 “ 非 西 班 牙 诊 黑 人 ”和 “美洲 印 第 
安 人 和 阿拉 斯 加 土著 ”的 群体 高 得 多 。 由 于 这 些 群体 占据 了 大 部 分 ， 所 以 很 难看 到 性 别 
的 影响 。 通 过 给 每 一 行 分 配 一 个 不 同 的 y 轴 ， 它 可 以 中 和 种 族 的 影响 ， 并 更 加 清楚 地 看 
到 男性 和 女性 之 间 的 区 别 : 








ggplot(gonorrhoea, aes(Age.Group, Rate, group = Year, color = Year)) + 
geom_line() + 
facet_grid(Ethnicity ~ Gender, scales = "free_y") 


在 这 里 你 可 以 看 到 女性 的 感染 率 高 于 男性 (在 相同 年 龄 组 和 民族 中 )， 并 有 一 个 更 加 持 
续 的 高 峰 期 ， 从 15 到 24 岁 ; 而 男性 为 20 到 24 岁 。 


练习 15-1 
(1) 在 这 种 情况 下 ， 无 论 是 错别字 的 数目 x 和 错别字 的 平均 数目 Lambda 都 是 3: 


dpois(3, 3) 


## [1] 0.224 





(2) 位 数 q 为 12 (个 月 )，size 为 1， 因 为 我 们 只 需要 怀孕 一 次 ， 每 个 月 的 probability 
为 0.25: 
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pnbinom(12 , 1, 0.25 ) 


## [1] 0.9762 





(3) 为 了 更 加 直截了当 ， 我 们 只 把 probability 设 定 为 0.9: 





Qbirthday(0.9) 
## [1] 41 


。 练习 15-2 
我 们 要 么 可 以 取 数 据 集 的 一 个 子 集 (使 用 通常 的 索引 方法 或 subset 函数 )， 要 么 把 子 集 
的 详细 信息 传递 给 tm 的 subset BR: 


model1 <- lm( 

Rate ~ Year + Age.Group + Ethnicity + Gender, 

gonorrhoea, 

subset = Age.Group %in% c("15 to 19" ,"20 to 24" ,"25 to 29" ,"30 to 34") 
) 


summary(model1) 


## 

## Call: 

## lm(formula = Rate ~ Year + Age.Group + Ethnicity + Gender, data = gonorrhoea, 
## subset = Age.Group %in% c("15 to 19", "20 to 24", "25 to 29", 

#4 "30 to 34")) 

## 

## Residuals: 

#H Min 1Q Median 3Q Max 

## -774.0 -127.7 -10.3 106.2 857.7 

He 

## Coefficients: 

#H Estimate Std. Error t value Pr(>|t|) 
## (Intercept) 9491.13 25191.00 0.38 0.7068 
## Year -4.55 12.54 -0.36 0.7173 
## Age.Group20 to 24 131.12 50.16 2.61 0.0097 
## Age.Group25 to 29 -124.60 50.16 -2.48 0.0138 
## Age.Group30 to 34 -259.83 50.16 -5.18 5.6e-07 
## EthnicityAsians & Pacific Islanders -212.76 56.08 -3.79 0.0002 
## EthnicityHispanics -124.06 56.08 -2.21 0.0281 
## EthnicityNon-Hispanic Blacks 1014.35 56.08 18.09 < 2e-16 
## EthnicityNon-Hispanic Whites -174.72 56.08 -3.12 0.0021 
## GenderMale -83.85 35.47 -2.36 0.0191 
## 

## (Intercept) 

## Year 

## Age.Group20 to 24 EE 

## Age.Group25 to 29 * 

## Age.Group30 to 34 ERK 

## EthnicityAsians & Pacific Islanders *** 

## EthnicityHispanics * 

## EthnicityNon-Hispanic Blacks eek 

## EthnicityNon-Hispanic Whites ee 
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## GenderMale * 

HH --- 

## Signif. codes: © '***' 0.001 '**' 0.01 '*' 0.05 '.' O.1 ' ' 1 
## 

## Residual standard error: 251 on 190 degrees of freedom 

## Multiple R-squared: 0.798, Adjusted R-squared: 0.789 

## F-statistic: 83.7 on 9 and 190 DF, p-value: <2e-16 





Year 不 显著 ， 因 此 我 们 将 其 删除 : 





model2 <- update(model1, ~ . - Year) 
summary(model2) 


BH 

## Call: 

## lm(formula = Rate ~ Age.Group + Ethnicity + Gender, data = gonorrhoea, 
HH subset = Age.Group %in% c("15 to 19", "20 to 24", "25 to 29", 

HH "30 to 34")) 

## 

## Residuals: 

#H Min 1Q Median 3Q Max 

## -774.0 -129.3 -6.7 104.3 866.8 

## 

## Coefficients: 

Ht Estimate Std. Error t value Pr(>|t]) 
## (Intercept) 358.2 53.1 6.75 1.7e-10 
## Age.Group20 to 24 131.4 50.0 2.62 0.00949 
## Age.Group25 to 29 -124.6 50.0 -2.49 0.01363 
## Age.Group30 to 34 -259.8 50.0 -5.19 5.3e-07 
## EthnicityAsians & Pacific Islanders -212.8 55.9 -3.80 0.00019 
## EthnicityHispanics -124.1 55.9 -2.22 0.02777 
## EthnicityNon-Hispanic Blacks 1014.3 55.9 18.13 < 2e-16 
## EthnicityNon-Hispanic Whites -174.7 55.9 -3.12 0.00207 
## GenderMale -83.8 35.4 -2.37 0.01881 
## 

## (Intercept) kkk 

## Age.Group20 to 24 KE 

## Age.Group25 to 29 x 

## Age.Group30 to 34 See 

## EthnicityAsians & Pacific Islanders *** 

## EthnicityHispanics * 

## EthnicityNon-Hispanic Blacks we 

## EthnicityNon-Hispanic Whites kk 

## GenderMale * 

HH --- 

## Signif. codes: © '***' 0.001 '**' 0.01 '*' 0.05 '.' O.1 ' ' 1 

## 

## Residual standard error: 250 on 191 degrees of freedom 

## Multiple R-squared: 0.798, Adjusted R-squared: 0.79 

## F-statistic: 94.5 on 8 and 191 DF, p-value: <2e-16 


这 一 次 ，Gender 就 变 得 显著 了 ， 因 此 我 们 也 可 以 停止 了 。( 儿 童 和 老人 的 感染 率 在 性 别 
上 都 很 接近 ， 因 为 性 对 于 它们 来 说 并 非 传播 的 主要 原因 ， 但 是 对 于 成 年 女性 来 说 ， 她 们 
的 感染 率 要 高 于 男性 。) 


>H 








大 多 数 可 能 的 交互 项 都 不 是 非常 有 趣 。 通 过 增加 一 个 种 族 和 性 别 的 交互 ， 我 们 可 以 得 到 
了 一 个 更 好 的 拟 合 ， 虽 然 不 是 所 有 的 交互 项 都 是 显著 的 (输出 非常 详细 ， 所 以 未 显示 )。 


如 果 你 仍然 对 此 分 析 感 兴趣 ， 尝 试 为 黑色 / 非 黑 人 创建 一 个 单独 的 民族 指 





用 它 作 为 与 性 别 的 交互 项 : 


## 
## 
## 
HH 
HH 
## 
## 
## 
## 
HH 
## 
## 
## 
## 
## 
HH 
## 
## 
## 
## 
HH 
## 
## 
## 
## 
## 
HH 
## 
HH 
## 
## 
## 
## 
HH 
## 
## 
## 
## 
HH 
## 
HH 
## 
## 
## 
## 


Call: 





示 器 ， 然 后 使 


lm(formula = Rate ~ Age.Group + Ethnicity + Gender + Ethnicity:Gender, 


Estimate Std. Error t value 


405.1 


63.9 


data = gonorrhoea, subset = Age.Group %in% c("15 to 19", 
"20 to 24", "25 to 29", "30 to 34")) 
Residuals: 
Min 1Q Median 3Q Max 
-806.0 -119.4 -9.4 105.3 834.8 
Coefficients: 
(Intercept) 
Age.Group20 to 24 


Age.Group25 to 29 

Age.Group30 to 34 

EthnicityAsians & Pacific Islanders 
EthnicityHispanics 
EthnicityNon-Hispanic Blacks 
EthnicityNon-Hispanic Whites 

GenderMale 

EthnicityAsians & Pacific Islanders:GenderMale 
EthnicityHispanics:GenderMale 
EthnicityNon-Hispanic Blacks:GenderMale 
EthnicityNon-Hispanic Whites:GenderMale 


(Intercept) 

Age.Group20 to 24 

Age.Group25 to 29 

Age.Group30 to 34 

EthnicityAsians & Pacific Islanders 
EthnicityHispanics 
EthnicityNon-Hispanic Blacks 
EthnicityNon-Hispanic Whites 

GenderMale 

EthnicityAsians & Pacific Islanders :GenderMale 
EthnicityHispanics:GenderMale 
EthnicityNon-Hispanic Blacks:GenderMale 
EthnicityNon-Hispanic Whites:GenderMale 


Signif. codes: © '***' 0.001 '**' 0.01 '*' 0.05 '. 


131.1 
-124.6 
-259.8 

-296.9 
-197.2 

999.5 
-237.0 
-177.6 
168.2 

146.2 

29.7 
124.6 
Pr(>|t]) 
1.7e-09 
0.00960 
0.01377 
5.6e-07 


0.00024 *** 


0.01370 
< 2e-16 
0.00315 
0.02615 
0.13487 
0.19361 
0.79092 
0.26754 


Residual standard error: 251 on 187 degrees of freedom 


Multiple R-squared: 0.802, Adjusted R-squared: 


0.789 


F-statistic: 63.2 on 12 and 187 DF, p-value: <2e-16 


。 练习 15-3 
首先 解决 安装 问题 。 像 通常 一 样 获取 软件 包 并 安装 : 





kkk 


' 0.1 


50.1 

50.1 

50.1 
79.2 


1 


6.34 
2.62 
-2.49 
-5.19 
-3.75 
-2.49 
12.62 
-2.99 
-2.24 
1.50 
1.30 
0.27 
1.11 
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附录 D 


install.packages("betareg") 


我 们 需要 重新 调整 响应 变量 为 0 和 1 之 间 (而 不 是 9 和 100), 











加 
SE 
这 
fain 
$ 





ovm <- within(obama_vs_mccain, Obama <- Obama / 100) 








en 
m 
eu 


现在 我 们 准备 运行 模型 。 它 与 运行 一 元 线性 回归 相同 ， 但 我 们 称 之 为 betareg 而 不 是 
Lm。 我 随机 地 关注 种 族群 体 Black 和 宗教 Protestant: 





library(betareg) 
beta_model1 <- betareg( 
Obama ~ Turnout + Population + Unemployment + Urbanization + Black + Protestant, 


ovm, 
subset = State != "District of Columbia" 

) 

summary(beta_model1) 

Be 

## Call: 

## betareg(formula = Obama ~ Turnout + Population + Unemployment + 

## Urbanization + Black + Protestant, data = ovm, subset = State != 

#H "District of Columbia") 

Be 

## Standardized weighted residuals 2: 

#H Min 1Q Median 3Q Max 

## -2.834 -0.457 -0.062 0.771 2.044 

## 

## Coefficients (mean model with Logit link): 

## Estimate Std. Error z value Pr(>|z|) 

## (Intercept) -5.52e-01 4.99e-01 -1.11 0.2689 


## 
#H 
#H 
#H 
## 
## 
## 
#H 
#H 
#H 
## 
## 
## 
#H 
#H 
#H 
## 


Turnout 1.69e-02 5.91e-03 2.86 0.0042 ** 
Population 1.66e-09 5.34e-09 0.31 0.7566 
Unemployment 5.74e-02 2.31e-02 2.48 0.0132 * 
Urbanization -1.82e-05 1.54e-04 -0.12 0.9059 
Black 8.18e-03 4.27e-03 1.91 0.0558 . 
Protestant -1.78e-02 3.17e-03 -5.62 1.9e-08 *** 


Phi coefficients (precision model with identity link): 
Estimate Std. Error z value Pr(>|z|) 
(phi) 109.5 23.2 4.71 2.5e-06 *** 


Signif. codes: © '***' 0.001 '**' 0.01 '*' 0.05 “er OL ' 1 


Type of estimator: ML (maximum Likelihood) 

Log- likelihood: 72.1 on 8 Df 

Pseudo R-squared: 0.723 

Number of iterations: 36 (BFGS) + 3 (Fisher scoring) 


Urbanization 是 不 显著 的 ， 所 以 我 们 将 其 删除 ， 使 用 与 tn 相同 的 技术 : 


beta_modeL2 <- update(beta model1, ~ . - Urbanization) 
summary(beta_model2) 





## 
## 
## 
HH 
## 
## 
## 
## 
HH 
## 
## 
## 
## 
## 
## 
HH 
## 
## 
## 
## 
## 
## 
## 
## 
## 
## 
HH 
## 


Call: 
betareg(formula = Obama ~ Turnout + Population + Unemployment + 

Black + Protestant, data = ovm, subset = State != "District of Columbia") 
Standardized weighted residuals 2: 


Min 1Q Median 3Q Max 
-2.831 -0.457 -0.053 0.774 2.007 


Coefficients (mean model with logit link): 

Estimate Std. Error z value Pr(>|z|) 
(Intercept) -5.69e-01 .77e-01 -1.19 0.2327 
Turnout 1.70e-02 .86e -03 2.90 0.0037 ** 
Population 1.73e-09 .31e-09 0.32 0.7452 
Unemployment 5.70e-02 .29e-02 2.48 0.0130 * 
Black 7.93e-03 .73e-03 2513 0.0334 * 
Protestant -1.76e-02 .48e -03 -7.09 1.3e-12 *** 


NoNmwm 上 


Phi coefficients (precision model with identity link): 


Estimate Std. Error z value Pr(>|z]) 
(phi) 109.4 23.2 4.71 2.5e-06 *** 
Signif. codes: © '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 


Type of estimator: ML (maximum Likelihood) 
Log-likelihood: 72.1 on 7 Df 

Pseudo R-squared: 0.723 

Number of iterations: 31 (BFGS) + 3 (Fisher scoring) 


同样 ， 也 要 把 Population 去 掉 : 





beta_model3 <- update(beta_model2, ~ . - Population) 
summary(beta_model3) 


HH 
## 
## 
## 
## 
## 
HH 
## 
## 
## 
HH 
## 
HH 
## 
## 
## 
## 
HH 
## 
## 


Call: 
betareg(formula = Obama ~ Turnout + Unemployment + Black + Protestant, 
data = ovm, subset = State != "District of Columbia") 


Standardized weighted residuals 2: 
Min 1Q Median 3Q Max 
-2.828 -0.458 0.043 0.742 1.935 


Coefficients (mean model with logit link): 
Estimate Std. Error z value Pr(>|z|) 


(Intercept) -0.55577 0.47567 -1.17 0.2427 
Turnout 0.01686 0.00585 2.88 0.0040 ** 
Unemployment 0.05964 0.02145 2.78 0.0054 ** 
Black 0.00820 0.00364 2.26 0.0241 * 
Protestant -0.01779 0.00240 -7.42 1.2e-13 *** 


Phi coefficients (precision model with identity link): 
Estimate Std. Error z value Pr(>|z|) 
(phi) 109.2 23.2 4.71 2.5e-06 *** 
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## Signif. codes: © '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 


## Type of estimator: ML (maximum Likelihood) 

## Log-likelihood: 72.1 on 6 Df 

## Pseudo R-squared: 0.723 

## Number of iterations: 27 (BFGS) + 2 (Fisher scoring) 


绘图 可 以 使 用 与 Um 完全 相同 的 代码 来 完成 : 


plot_numbers <- 1:6 
layout(matrix(plot_numbers, ncol = 2, byrow = TRUE)) 
plot(beta_model3, plot_numbers) 


练习 16-1 

对 于 检查 和 处 理 用 户 输入 ， 并 没有 须 特别 遵循 的 规则 。 在 一 般 情 况 下 ， 如 果 输 入 的 形式 
是 错误 的 ， 最 好 是 设法 将 其 转换 成 正确 的 ， 并 在 此 过 程 中 警告 用 户 。 因 此 ， 对 于 非 数 字 
输入 ， 我 们 可 以 党 试 将 它们 转换 为 数值 ， 并 抛 出 一 个 警告 。 


对 于 非 正 值 ， 我 们 可 以 尝试 替换 一 个 范围 内 的 值 ， 或 假装 该 值 是 缺失 的 ， 但 这 样 会 使 答 
案 出 错 。 在 这 种 情况 下 ， 最 好 是 抛 出 一 个 错误 : 




















harmonic_mean <- function(x, na.rm = FALSE) 


{ 
if(!is.numeric(x)) 
{ 
warning("Coercing 'x' to be numeric.") 
x <- aS.numeric(x) 


} 
if(any(!is.na(x) & x <= 0)) 
stop("'x' contains non-positive values") 


1 / mean(1 / x, na.rm = na.rm) 


} 


练习 16-2 

这 里 是 Runit 的 版 本 。 为 了 测试 缺失 值 ， 我 们 需要 考虑 的 情况 有 : na.rm 是 TRUE 和 
na.rm 为 FALSE。 为 了 测试 须 抛 出 警告 的 情况 ， 我 们 略 施 小 计 ， 将 warn 选项 改 为 2， 意 
即将 警告 看 作 错误 。 为 了 测试 非 正 值 ， 使 用 边界 数值 零 。 


test.harmonic mean.1 2 _4.returns_12_over_7 <- function() 


{ 
expected <- 12 / 7 
actual <- harmonic_mean(c(1, 2, 4)) 
checkEqualsNumeric(expected, actual) 


} 


test. harmonic_mean.no_inputs.throws_error <- function() 


checkException(harmonic_mean() ) 
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} 
test. harmonic_mean.some_missing.returns_na <- function() 
{ 
expected <- NA_real_ 
actual <- harmonic_mean(c(1, 2, 4, NA)) 
checkEqualsNumeric(expected, actual) 
} 
test. harmonic_mean.some_missing_with_nas_removed.returns_12_over_7 <- function() 
{ 
expected <- 12 / 7 
actual <- harmonic_mean(c(1, 2, 4, NA), na.rm = TRUE) 
checkEqualsNumeric(expected, actual) 
} 
test. harmonic_mean.non_numeric_input.throws_warning <- function() 
{ 
old_ops <- options(warn = 2) 
on.exit(options(old_ops)) 
checkException(harmonic_mean("1")) 
} 
test.harmonic_mean.zero_inputs.throws_error <- function() 


{ 
} 
翻译 成 testthat 的 版 本 很 简单 。 使 用 expect_warning 国 数 ， 可 使 警告 更 容易 测试 : 


checkException(harmonic_mean(0) ) 





expect_equal(12 /7, harmonic_mean(c(1, 2, 4))) 
expect_error(harmonic_mean() ) 

expect_equal(NA_real_, harmonic_mean(c(1, 2, 4, NA))) 
expect_equal(12 /7, harmonic_mean(c(1, 2, 4, NA), na.rm = TRUE)) 
expect_warning(harmonic_mean(""1")) 
expect_error(harmonic_mean(0) ) 


。 练习 16-3 
下 面 是 更 新 的 harmonic_mean 国 数 : 














harmonic_mean <- function(x, na.rm = FALSE) 


{ 
if(!is.numeric(x)) 
{ 
warning("Coercing 'x' to be numeric.") 
x <- aS.numeric(x) 
if(any(!is.na(x) & x <= 0)) 
stop("'x' contains non-positive values") 
} 
result <- 1 / mean(1 / x, na.rm = na.rm) 
class(result) <- "harmonic" 
result 
} 


为 了 生成 一 个 S3 的 方法 ， 名 称 的 格式 必须 符合 Function.class 的 形式 ， 在 本 例 中 即 为 
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print.harmonic。 其 他 内 容 可 以 与 其 他 print 函数 生成 ， 但 在 这 里 ， 我 们 使 用 较 低 级 别 





的 cat 函数 : 
print.harmonic <- function(x, ...) 
{ 
cat("The harmonic mean is", x, "\n", ...) 
} 


练习 17-1 





创建 函数 和 数据 框 都 很 简单 : 





sum_of_squares <- function(n) 


{ 

n* (n+1)*(2*n+1)/56 
} 
x <- 1:10 


squares_data <- data.frame(x = x, y = sum_of_squares(x)) 


在 你 调用 package.skeleton 时 ， 需 要 考虑 在 哪个 目录 下 创建 软件 包 : 


package.skeleton("sSquares", c("sum_of_squares", "squares_data")) 


练习 17-2 
此 函数 的 文档 应 该 置 于 R/sum_of _ squares.R， 或 类 似 的 : 


#' 
#' 
#' 
#' 
#' 
#' 
#' 
#' 
#' 
#' 
#' 
#' 
#' 





Sum of Squares 
Calculates the sum of squares of the first \code{n} natural numbers. 


@param n A positive integer. 

@return An integer equal to the sum of the squares of the first \code{n} 
natural numbers. 

@author Richie Cotton. 

@seealso \code{\link[base]{sum}} 

@examples 

sum_of_squares(1:20) 

@keywords misc 

@export 


该 软件 包 的 文档 位 于 R/squares-package.R 中 : 


#! 
#! 





squares: Sums of squares. 


#' A test package that contains data on the sum of squares of natural 


#' 
#' 
#' 
#' 
#' 
#' 
#' 


numbers, and a function to calculate more values. 


@author Richie Cotton 

@docType package 

@name squares 

@aliases squares squares -package 
@keywords package 


NULL 
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数据 文档 可 以 被 放 入 同一 个 文件 ， 或 是 在 R/squares-data.R 中 : 








#' Sum of squares dataset 

#! 

#' The sum of squares of natural numbers. 

#' \itemizef 

#' \item{x}{Natural numbers. } 

#' \item{y}{The sum of squares from 1 to \code{x}.} 
#' } 

#! 

#' @docType data 

#' @keywords datasets 

#' @name squares_data 

#' @usage data(squares_data) 

#' @format A data frame with 10 rows and 2 variables. 
NULL 


。 练习 17-3 
代码 很 容易 ， 困 难 的 部 分 在 于 修复 任何 问题 : 


check("squares") 
build("squares") 
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本 书 封面 上 的 动物 是 犯 子 (Roe Deer 或 Capreolus 


关于 封面 


capreolus)， 它 是 鹿 的 一 种 ,分布 于 欧洲 

















大 部 分 地 区 、 斯 堪 的 纳 维 亚 以 及 地 中 海地 区 。 甚 英文 Roe 是 从 古 英文 单词 spotted (斑点 ) 
衍生 出 来 的 ， 但 也 有 其 他 的 翻译 表明 它 在 古语 里 的 意思 可 能 是 red (红色 )。 


犯 子 的 体型 很 小 (平均 3~4 英尺 长 、 肩 高 约 2 英尺 ) ， 却 有 着 优美 的 四 肢 。 雄 犯 的 鹿角 比 














较 短 ， 只 有 几 个 分 文 ， 但 在 其 他 方面 与 肉 犯 几乎 
有 和 白色 的 斑点 ， 当 它们 感到 警觉 时 会 不 停 地 摆动 。 











天 淡化 成 灰色 或 浅 棕色 。 通 过 10 月 怀胎 ， 小 鹿 会 


会 长 有 白色 的 斑点 。 





林地 是 犯 首选 的 栖息 地 ， 不 过 它们 也 会 到 草地 和 稀 玻 的 森林 里 吃 草 。 偶 尔 它 们 也 会 出 现在 


农场 附近 ， 但 往往 会 远离 圈养 牲畜 的 地 方 ， 可 能 





模 一 样 。 这 些 鹿 的 尾巴 很 短 ， 辟 部 上 还 
它们 的 皮毛 在 夏季 是 红色 的 ， 但 会 在 冬 
在 夏天 出 生 ， 小 鹿 在 前 六 个 星期 中 身上 








因为 那些 地 方 的 草地 已 被 践踏 且 不 太 干 

















ae 




















。 它 们 吃 的 是 草 、 芽 、 叶 和 浆果 ， 并 且 它 们 通常 活跃 在 黄 撒 时 分 。 








在 迪士尼 经 典 电 影 《小 鹿 斑 比 》 的 奥地利 的 原著 故事 中 ， 小 鹿 斑 比 就 是 一 只 犯 子 ， 但 迪 斯 


尼 把 它 改 成 了 白 尾 鹿 ， 因 为 它 更 为 北美 观众 所 熟知 。 





封面 图 片 选 自 Cassell 的 《自然 历史 》。 
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